Agent Infra 的六层框架解析
引言:重新定义AI Agent及其复杂性
AI Agent(人工智能代理)系统的抽象定义是能够代理人类并自主行动完成目标的AI系统。进一步而言,Agent是一种具备感知能力、拥有记忆、能够自主决策并采取行动以实现特定目标的AI系统。
然而,当Agent真正落地以完成复杂的现实任务时,其定义需要发展成为一个像人类或人类社会一样复杂的智能系统。
为了便于理解Agent实现复杂任务的能力,可以将其核心基础设施(Agent Infra)总结为一个六层的框架模型:模型层、调度层、记忆层、工具层、运维和治理层、以及社会层。这六个层面共同构成了Agent强大的生命系统。
一、模型层:Agent的智能之源与思考中枢
模型层被视为Agent的大脑。它主要由大型语言模型(LLM)构成,负责最关键的思考、推理和决策功能。
我们熟知的模型,如GPT-5、Claude 4.1、国内的千问3、DeepSeek V3等,均属于这一层。它们是整个系统的智力来源。
工作模式
模型层的工作模式相对简单:接收一串输入信息,通过其海量参数组成的计算网络进行处理,最终输出一串信息,代表其想法或决策。
模型层工作的最终产出是一个清晰的、包含了目标和行动方案的意图指令(例如,一段JSON代码,描述动作、目标和类型)。
然而,这一意图本身只是一串纯粹的信号,不具备任何物理力量,无法自行控制决策如何执行。
二、调度层:连接思考与行动的神经中枢
调度层可以被理解为Agent的神经中枢,也被称为编排层。它充当了Agent连接思考和行动之间的桥梁。
当模型层(大脑)产生意图指令后,信号会先传递给调度层。调度层的工作流程大致分为三步:
- 指令解析:解析来自大脑的信息,确定其目标
- 任务分解:将指令分解为需要多个身体部位协同的子任务
- 信息流转与顺序执行:按照正确的顺序,将分解后的指令发送给不同的身体组件执行。部分组件的执行结果可能还需要反馈给模型层
调度层负责Agent内部流程的控制和信息的流转。此外,它也负责管理Agent的短期记忆。
技术实现
在Agent领域,以下框架用于编写和实现这个神经中枢:
- LangChain
- LlamaIndex
- 阿里千问Agent框架
三、记忆层:提供决策上下文的关键基础
记忆是为Agent的所有决策提供至关重要上下文的核心组件。Agent的记忆像人类一样复杂,可以分为以下几种类型:
1. 内置记忆(Built-in Memory)
模型在训练阶段学到的、固化在其神经网络参数中的世界知识。它构成了Agent的知识底座,但缺点是一旦模型训练完成,除非再次训练,否则无法更新。
2. 短期会话记忆(Short-term Memory)
即常说的上下文长度。它允许Agent在连续对话中记住一定范围的内容。然而,大模型本身是无状态的。实际上,是调度层扮演"秘书"角色,将前面所有的聊天记录打包,每一次都作为一个包含完整上下文的"剧本"发送给大模型。
3. 中期工作记忆(Mid-term Memory)
面向任务的临时存储区。当Agent执行多步骤的复杂任务时,它可以将关键结果、观察或中间结论提炼总结,存入暂存区,供后续步骤调取并放入上下文,辅助大脑决策。任务结束后,这类记忆可以被清除。
4. 长期个性化记忆(Long-term Memory)
用于持久化存储用户的个人信息、偏好等数据。这些信息在每次交互时都会被调用,以提供个性化服务。像MoGVT、Memento等项目正致力于智能管理这类中长期记忆。
5. 外部记忆库(External Memory)
最常见且高效的记忆类型,相当于给Agent一本随时可翻阅的参考书或资料库。通常通过检索增强生成(RAG)实现。Agent会先检索出相关信息,结合用户问题一同作为上下文,生成答案。
四、工具层:决定Agent行动能力的武器库
Agent是否能真正替人类完成任务,关键在于它是否能够利用工具采取真正的行动。Agent的工具能力经历了类似人类工具的演进路径。
1. 早期工具
单一功能的API,如搜索、天气查询或计算器。
2. 标准化与通用化
- MCP协议的出现减少了重复开发,使工具调用更加便捷
- 随着模型能力的提升,Agent学会了使用更强大的通用工具,如操作浏览器、填表单
- 它甚至可以操作电脑桌面,调用Word、Excel、执行终端命令,甚至可以编程自创工具
3. 专业化工作环境
近期趋势是构建专用的云端工作环境(Agent Workspaces)。大型云厂商如AWS(Agent Core)和阿里云(无影Agent Bay)都在发展此类服务。
这种环境在沙箱中预装了工具、配置好环境,支持Agent开箱即用。
4. 云端优势
专用的云端环境解决了Agent在本地运行时面临的问题:
- 环境配置复杂
- 霸占电脑资源
- 安全风险(如删除文件)
例如,无影Agent Bay提供:
- 云电脑、云手机、浏览器等沙箱环境
- 工具记忆,持久化保存任务上下文和生成的文件
- 可作为强化学习的真实环境,通过数据反馈帮助Agent持续学习和进化
- 弹性支持高并发,瞬间调起上万台高性能云电脑来执行任务
五、运维和治理层:确保安全与稳定运行
随着Agent能力的增强,伴随而来的问题和风险也需要得到控制,这由运维(O&M)和治理层来负责。
1. 运维(Operations)
确保Agent能够在高负载情况下稳定、持续运行,避免无意义的算力消耗,并对其行为进行观测。
2. 治理(Governance)
对应安全问题。Agent面临的安全风险包括:
- 提示注入攻击
- 套取隐私机密
- 越权攻击
- 数据投毒
3. 云服务的安全优势
针对Agent的安全措施目前尚不完善。但与直觉相反,让Agent在本地工作并非更安全,本地环境相当于"裸奔"。
云服务,尤其像阿里云这种具备完整强大身份管理和安全系统的传统云服务商,能够将其安全机制直接应用于Agent Infra中(如Agent Bay),提供了更强大的运维和治理保障。
六、社会层:协作与集体智慧的未来
人类文明的进步依赖于协作。家庭、公司、民间组织等架构以及婚姻、劳动、贸易等协议,构成了人类社会,使人类命运共同体发挥出更大的能力。
Agent的发展也遵循同样的路径。Agent可以通过彼此协作来完成更大、更复杂的任务,甚至可以组建一个庞大的集体式Agent智慧体,乃至于创造Agent经济体。
当前发展状态
目前Agent的协作仍处于发展初期,但行业中已经出现了:
- 多Agent(MultiAgent)架构
- 谷歌A2A协议等旨在让Agent顺畅沟通的协议
这是业界极具想象力的一个流行趋势。
结论:Agent Infra塑造AI新时代
一个真正强大、可靠的Agent,其能力远不止于大模型这个"大脑"。它是一个完整的生命系统,囊括了:
- 聪明的模型层
- 灵活的调度层
- 可靠的记忆层
- 能干的工具层
- 健康的免疫系统(运维/治理层)
- 融入集体的协作方式(社会层)
正如人类的不断升级依赖于工具和日益精妙的协作框架一样,AI的发展也取决于这些基础设施的不断突破。
未来展望
当Agent Infra足够完备时,AI有望成为新一代操作系统。未来的图景是:
- 我们使用自然语言向AI下达任务
- 真正的操作将由云端的Agent队伍协同完成
- 所有软件的入口都将不再是按钮和UI,而是AI本身
- 各种智能设备都将成为我们与云端Agent交互的入口
这就是Agent Infra为我们描绘的AI新时代。