大模型、Agent 框架与 Skills 的关系,从”会思考”到”会干活”——AI 系统三层架构详解

三句话说清楚关系

  • 大模型提供智能,但不直接”动手”
  • Agent 框架负责协调,把智能变成行动
  • Skills提供专业深度,让 Agent 在特定任务上精准可靠

一、引言:光有大脑还不够

大语言模型(LLM)的横空出世,让人们第一次真切感受到机器”理解”语言的能力。但很快,一个现实问题浮现:一个只会回答问题的模型,离真正”帮人干活”还差得远
发一封邮件、操作一张表格、自动部署一段代码——这些任务不是单凭语言理解就能完成的。于是,AI 系统逐渐演化出三个层次:大模型(LLM)、Agent 框架、Skills(技能)。它们分工明确,相互依存,共同构成了今天 AI 助手能够真正”做事”的基础。

二、第一层:大模型——智能的内核

大模型是整个系统的”大脑”,承担两件最核心的事:

1. 理解与生成语言

接收用户的自然语言输入,理解其意图,并生成流畅、准确的文字输出。这是大模型最基础的能力,也是一切上层能力的前提。

2. 推理与知识储备

大模型在海量文本上训练,内化了大量世界知识,并具备一定的逻辑推理能力——能拆解问题、类比推断、多步骤规划。
大模型的局限
然而,大模型本质上是一个”文字接龙”系统——它接收文本输入,输出文本。它不能直接:
  • – 访问互联网或实时数据库
  • – 操作文件、发送消息、运行代码
  • – 记住上一次对话的内容(默认情况)
  • – 调用外部 API 或工具
这就是为什么需要 Agent 框架。

三、第二层:Agent 框架——让大脑学会”干活”

Agent 框架是连接大模型与外部世界的编排层。它把大模型的语言理解能力,转化为可以完成真实任务的自主行动能力。
一个完整的 Agent 框架包含以下核心模块:

规划器(Planner)

接收用户目标后,Agent 并不会直接行动,而是先拆解任务,制定分步计划。这个规划过程本身依赖大模型的推理能力,但由框架来驱动和管理

记忆模块(Memory)

  • – 短期记忆:当前对话窗口内的上下文,让 Agent 记住”刚才说了什么”。
  • – 长期记忆:跨会话的持久化存储,让 Agent 记住用户偏好、过去的决策、项目背景。

工具调用(Tool Use)

Agent 可以调用预先定义好的工具——搜索引擎、代码执行器、文件系统、第三方 API 等。每次调用工具,都是一次从”思考”到”行动”的跨越。

反思循环(ReAct Loop)

这是 Agent 框架最关键的设计:观察 → 思考 → 行动 的循环迭代。Agent 不会一蹴而就地完成任务,而是执行一步、看看结果,再决定下一步——直到任务完成或达到终止条件。
类比:如果说大模型是一位聪明的顾问,Agent 框架就是这位顾问的”工作流程”——告诉他何时思考、何时动手、何时反思、何时汇报。

四、第三层:Skills——可插拔的专业能力

Skills 是 Agent 系统的能力扩展层,本质上是一包”专域知识 + 操作工作流”的封装

Skills 解决什么问题?

大模型有通用知识,但缺乏专业深度。当你让 Agent 处理一个 PDF、操作微信消息、或查询金融数据时,通用知识往往不够——你需要具体的 API 调用方式、特定的工具命令、以及领域内的最佳实践。
Skills 把这些专业知识提前写好、封装好,Agent 在需要时直接加载使用,而不用临时”摸索”

Skills 的典型类型

  • 文档类 Skills:处理 Word、Excel、PDF、PPT,示例:docx、xlsx、pdf、pptx
  • 浏览器类 Skills:网页操控、表单填写、截图,示例:Browser Automation
  • 平台集成 Skills:对接第三方系统,示例:Lark/飞书、TAPD
  • 数据类 Skills:金融数据查询、分析,示例:neodata-financial-search
  • 内容生成 Skills:图片、视频、3D 生成,示例:多模态内容生成
  • 自定义 Skills:用户或团队自定义的私有工作流,示例:任何重复性操作流程

Skills 的生命周期

Skills 不是静态的。Agent 在完成复杂任务后,会自动将新的操作经验提炼成 Skill 保存下来,供下次使用——这是一种能力的自我积累机制
类比:如果 Agent 框架是一位全能助手,Skills 就是他书架上的工具书和操作手册。每次遇到新问题,他会查阅相关手册;每次解决了新难题,他会把经验写进新的一册。

五、三者的协作关系

三者之间是自上而下调用、自下而上赋能的关系:
用户发出请求–>Agent 框架接收,规划任务–>大模型推理,判断需要哪些 Skills–>Agent 加载对应 Skill,获取专域知识和工具指令–>Agent 调用工具,执行操作–>观察执行结果,注入大模型上下文–>(循环,直到任务完成)–>返回最终结果给用户
关键点:
  • – 大模型提供智能,但不直接执行任何外部操作
  • – Agent 框架提供协调,决定何时思考、何时行动、如何循环
  • – Skills 提供专业深度,让 Agent 在特定领域拥有精确可靠的操作能力
三者缺一不可。只有大模型,能说不能做;只有 Agent 框架没有 LLM,行动缺乏智能;只有 Skills 没有框架,工具无法被自主调用。

六、一个真实的例子:让 AI 生成财务分析报告

假设用户说:”帮我分析一下某公司最近一个季度的财报,生成一份 PPT 摘要。”
  1. Agent 框架接收请求,规划出两步任务:①获取财报数据 ②生成 PPT
  2. 大模型分析任务,判断需要用到两个 Skills:neodata-financial-search(金融数据)和 pptx(PPT 生成)
  3. Skill: neodata-financial-search 被加载,Agent 按其指引调用金融数据 API,获取结构化财报
  4. 大模型阅读财报数据,提炼关键信息,生成分析文字
  5.  Skill: pptx 被加载,Agent 按其指引生成格式规范的 PPT 文件
  6.  Agent 将 PPT 路径返回给用户,任务完成
整个过程中,大模型负责”想”,Agent 框架负责”管”,Skills 负责”会”。

七、从工具到助手的演进

大模型、Agent 框架与 Skills 的结合,代表了 AI 从”回答问题”向”完成任务”的本质跃迁。
  • – 大模型是语言智能的结晶,赋予机器理解与推理的能力
  • – Agent 框架是行动的脚手架,把智能转化为可执行的流程
  • – Skills 是专业能力的载体,让通用 AI 在特定场景下精确可靠
三层架构的价值不在于各自有多厉害,而在于组合后的涌现——一个能够理解你、规划任务、调用工具、自我积累经验的 AI 系统,已经越来越接近一个真正意义上的智能助手。

Peter

📁10年以上搜索营销经验,对AI搜索生成营销(GEO)有独特见解!🌍个人主页

相关推荐

什么是Skill?AI助手专业能力模块的解析

如果你用过AI助手,一定遇到过这样的场景:让它写诗写文章,它信手拈来;让它查询某支股票的实时行情,或者帮你把一份PDF转成PPT——它却告诉你”我没有这个能 …

Deepseek快速模式与专家模式有何不同?

DeepSeek 网页端近期上线的“快速模式”和“专家模式”,是其在产品上首次引入的模式分层设计,旨在按需分配算力资源。简单来说,快速模式主打效率,适合日常任 …

什么是词元(Token)?

简单来说,词元(Token) 是大型语言模型(比如ChatGPT、DeepSeek)处理和生成文本时的最小基本单位。 你可以把它理解为:模型在“读”和“写”文字时,不是像人 …