Agent(智能体) 指的是一个基于 LLM 驱动的 自主决策系统。
它能够根据 环境输入进行推理、规划,并采取适当的行动来解决任务。
Agent 就是一个利用 LLM 作为核心推理引擎,并结合工具(Tools)、记忆(Memory)、规划(Planning)等能力的智能系统。
它不仅可以回答问题,还可以 调用 API、执行代码、查询数据库、与外部环境交互,甚至可以自主拆解复杂任务并逐步完成。
LLM Agent = 大语言模型(LLM)+ 记忆(Memory)+ 工具调用(Tools)+ 规划(Planning)+ 执行动作(Actions)。
类别 | LLM(大语言模型) | Agent(智能体) |
---|---|---|
核心功能 | 生成和理解自然语言 | 自主决策,执行任务 |
是否有记忆 | 通常无长期记忆(但可使用外部存储) | 可结合记忆组件,存储和检索信息 |
是否调用工具 | 仅基于内部知识回答 | 可调用 API、数据库、计算器、搜索引擎等外部工具 |
是否具备规划能力 | 仅基于单步推理 | 可进行多步推理、拆解任务、规划执行 |
应用场景 | 问答、翻译、文本生成 | 自动化任务、数据采集、智能决策 |
Agent
主要结构:记忆、规划、工具、行动:
记忆(
Memory
):
- 短期记忆,如上下文学习。
- 长期记忆,如向量数据库。
规划(
Planning
):
- 事前规划,复杂任务拆解。
- 事后反思,反思错误不足并吸取经验教训进行完善,形成和加入长期记忆。
工具(
Tool
):外部API或工具调用。行动(
Action
):实际执行决定或响应。

跟
Embedding
模式和Copilot
模式不同,Agent
具备独立思考、自主执行、持续迭代的特点。但是目前大多
Agent
都是RAG+API
调用的方式,感觉离独立思考、自主执行、持续迭代还很远。

Agents决策

Perception(感知):
对 prompt(输入)进行解析,提取关键信息,并将处理后的输入传递给 Agent。
Planning(规划):
Agent 根据感知到的信息,对任务进行拆解,制定执行步骤。
Action(执行):
按照规划的步骤,执行具体的子任务。
Observation(观察):
评估执行结果,如果结果符合预期,则继续循环,否则,调整规划并重新执行。