三句话说清楚关系
- 大模型提供智能,但不直接”动手”
- Agent 框架负责协调,把智能变成行动
- Skills提供专业深度,让 Agent 在特定任务上精准可靠

一、引言:光有大脑还不够
大语言模型(LLM)的横空出世,让人们第一次真切感受到机器”理解”语言的能力。但很快,一个现实问题浮现:一个只会回答问题的模型,离真正”帮人干活”还差得远。
发一封邮件、操作一张表格、自动部署一段代码——这些任务不是单凭语言理解就能完成的。于是,AI 系统逐渐演化出三个层次:大模型(LLM)、Agent 框架、Skills(技能)。它们分工明确,相互依存,共同构成了今天 AI 助手能够真正”做事”的基础。
二、第一层:大模型——智能的内核
大模型是整个系统的”大脑”,承担两件最核心的事:
1. 理解与生成语言
接收用户的自然语言输入,理解其意图,并生成流畅、准确的文字输出。这是大模型最基础的能力,也是一切上层能力的前提。
2. 推理与知识储备
大模型在海量文本上训练,内化了大量世界知识,并具备一定的逻辑推理能力——能拆解问题、类比推断、多步骤规划。
大模型的局限
然而,大模型本质上是一个”文字接龙”系统——它接收文本输入,输出文本。它不能直接:
- – 访问互联网或实时数据库
- – 操作文件、发送消息、运行代码
- – 记住上一次对话的内容(默认情况)
- – 调用外部 API 或工具
这就是为什么需要 Agent 框架。
三、第二层:Agent 框架——让大脑学会”干活”
Agent 框架是连接大模型与外部世界的编排层。它把大模型的语言理解能力,转化为可以完成真实任务的自主行动能力。
一个完整的 Agent 框架包含以下核心模块:
规划器(Planner)
接收用户目标后,Agent 并不会直接行动,而是先拆解任务,制定分步计划。这个规划过程本身依赖大模型的推理能力,但由框架来驱动和管理。
记忆模块(Memory)
- – 短期记忆:当前对话窗口内的上下文,让 Agent 记住”刚才说了什么”。
- – 长期记忆:跨会话的持久化存储,让 Agent 记住用户偏好、过去的决策、项目背景。
工具调用(Tool Use)
Agent 可以调用预先定义好的工具——搜索引擎、代码执行器、文件系统、第三方 API 等。每次调用工具,都是一次从”思考”到”行动”的跨越。
反思循环(ReAct Loop)
这是 Agent 框架最关键的设计:观察 → 思考 → 行动 的循环迭代。Agent 不会一蹴而就地完成任务,而是执行一步、看看结果,再决定下一步——直到任务完成或达到终止条件。
类比:如果说大模型是一位聪明的顾问,Agent 框架就是这位顾问的”工作流程”——告诉他何时思考、何时动手、何时反思、何时汇报。
四、第三层:Skills——可插拔的专业能力
Skills 是 Agent 系统的能力扩展层,本质上是一包”专域知识 + 操作工作流”的封装。
Skills 解决什么问题?
大模型有通用知识,但缺乏专业深度。当你让 Agent 处理一个 PDF、操作微信消息、或查询金融数据时,通用知识往往不够——你需要具体的 API 调用方式、特定的工具命令、以及领域内的最佳实践。
Skills 把这些专业知识提前写好、封装好,Agent 在需要时直接加载使用,而不用临时”摸索”。
Skills 的典型类型
- 文档类 Skills:处理 Word、Excel、PDF、PPT,示例:docx、xlsx、pdf、pptx
- 浏览器类 Skills:网页操控、表单填写、截图,示例:Browser Automation
- 平台集成 Skills:对接第三方系统,示例:Lark/飞书、TAPD
- 数据类 Skills:金融数据查询、分析,示例:neodata-financial-search
- 内容生成 Skills:图片、视频、3D 生成,示例:多模态内容生成
- 自定义 Skills:用户或团队自定义的私有工作流,示例:任何重复性操作流程
Skills 的生命周期
Skills 不是静态的。Agent 在完成复杂任务后,会自动将新的操作经验提炼成 Skill 保存下来,供下次使用——这是一种能力的自我积累机制。
类比:如果 Agent 框架是一位全能助手,Skills 就是他书架上的工具书和操作手册。每次遇到新问题,他会查阅相关手册;每次解决了新难题,他会把经验写进新的一册。
五、三者的协作关系
三者之间是自上而下调用、自下而上赋能的关系:
用户发出请求–>Agent 框架接收,规划任务–>大模型推理,判断需要哪些 Skills–>Agent 加载对应 Skill,获取专域知识和工具指令–>Agent 调用工具,执行操作–>观察执行结果,注入大模型上下文–>(循环,直到任务完成)–>返回最终结果给用户
关键点:
- – 大模型提供智能,但不直接执行任何外部操作
- – Agent 框架提供协调,决定何时思考、何时行动、如何循环
- – Skills 提供专业深度,让 Agent 在特定领域拥有精确可靠的操作能力
三者缺一不可。只有大模型,能说不能做;只有 Agent 框架没有 LLM,行动缺乏智能;只有 Skills 没有框架,工具无法被自主调用。
六、一个真实的例子:让 AI 生成财务分析报告
假设用户说:”帮我分析一下某公司最近一个季度的财报,生成一份 PPT 摘要。”
- Agent 框架接收请求,规划出两步任务:①获取财报数据 ②生成 PPT
- 大模型分析任务,判断需要用到两个 Skills:neodata-financial-search(金融数据)和 pptx(PPT 生成)
- Skill: neodata-financial-search 被加载,Agent 按其指引调用金融数据 API,获取结构化财报
- 大模型阅读财报数据,提炼关键信息,生成分析文字
- Skill: pptx 被加载,Agent 按其指引生成格式规范的 PPT 文件
- Agent 将 PPT 路径返回给用户,任务完成
整个过程中,大模型负责”想”,Agent 框架负责”管”,Skills 负责”会”。
七、从工具到助手的演进
大模型、Agent 框架与 Skills 的结合,代表了 AI 从”回答问题”向”完成任务”的本质跃迁。
- – 大模型是语言智能的结晶,赋予机器理解与推理的能力
- – Agent 框架是行动的脚手架,把智能转化为可执行的流程
- – Skills 是专业能力的载体,让通用 AI 在特定场景下精确可靠
三层架构的价值不在于各自有多厉害,而在于组合后的涌现——一个能够理解你、规划任务、调用工具、自我积累经验的 AI 系统,已经越来越接近一个真正意义上的智能助手。
