深度解析：AI Agent 的演进史与未来，一位一线学者的技术综述 🤖

大家好，我是小俊。

在之前的节目中，我们深入探讨了 AI 的进化，见证了它从 Chat（对话）时代走向 Agent（智能体）时代的跃迁。毫不夸张地说，Agent 是 2026 年人工智能领域当之无愧的“高频词”。

关于 Agent，我一直希望能从技术原理层面为大家做一次深度拆解，清晰地梳理出这条技术的脉络。今天，我有幸邀请到了 俄亥俄州立大学（OSU）计算机系教授，同时也是创业公司 Milkognition 的创始人——苏玉。

苏老师是极少数亲历了 Agent 完整演化史的学者。他不仅深耕 Language Agent（语言智能体）研究，更是 2025 年斯隆研究奖（Sloan Research Fellowship）的得主。在这期播客中，我们将从更长的时间维度复盘 Agent 的进化史，特别是近三年 Language Agent 的快速迭代。

祝大家五一假期学习快乐，期待 2026 年我们与 AI 共同进步！

一、溯源：Agent 并非新事物，它是 AI 的底色

小俊： 苏老师，最近 OpenCloud 非常火，很想借此机会聊聊 Agent 的综述。能不能请您先做一个简单的自我介绍，并谈谈您对 Agent 的历史认知？

苏玉： 大家好，我是苏玉。我在清华读完本科后赴美深造，后来在 OSU 开启了 NLP 研究组，比较关注计算机使用（Computer Use）Agent 以及多模态大模型（如 MMMU Benchmark）。去年我搬到硅谷创办了 Neocognition，专注于 Agent 相关研究。

关于 Agent，它其实不是什么新概念，而是贯穿 AI 始终的基石。

如果给 Agent 下一个定义：它是一个有边界的实体，在特定的环境中有目的地去进行活动（Goal-Directed Activities）。从这个视角看，不仅是 AI，甚至连所有动物、尤其是人，都是高级的 Agent。

我们可以将 AI Agent 的演进简单归纳为三个阶段：

逻辑智能体（Logical Agent，1950s - 1990s）： 那是 AI 的鸿蒙时期，代表是“专家系统”。通过逻辑语言和推理引擎来解决问题。但后来由于知识获取成本太高（专家系统无法兑现诺言），导致了 AI 寒冬。
神经网络智能体（Neural Agent，2000s - 2020s）： 随着深度强化学习（Deep RL）的发展，大家开始在虚拟环境（如 Atari 游戏、AlphaGo、Dota）里训练 Agent。但其泛化能力和“样本效率”依然很低，输入输出高度受限。
语言智能体（Language Agent，2022s 至今）： 随着大语言模型（LLM）的出现，AI 进化到了新阶段。语言成为了 Agent 的“脚手架”，极大扩展了其感知、推理与行动的边界。

二、为何说“语言”是 Agent 的加速剂？

小俊： 在您的研究中，为什么将现在的 Agent 定义为 Language Agent？语意解析（Semantic Parsing）和它本质区别是什么？

苏玉： 这是一个很好的问题。以前的语义解析受限于环境，必须针对特定数据库或知识图谱开发。而 LLM 提供了一个极强的“先验知识”（Prior），内置了一个基于语言的世界模型。

LLM 给 Agent 带来了质变：

作为脚手架（Scaffold）： 我们可以通过 Chain of Thought（思维链）实现“自适应推理”。任务越复杂，消耗的 Token 越多，计算量越具弹性。
作为媒介（Media）： 语言涵盖了自然语言、代码、甚至视觉符号，这让 Agent 能在数字世界中进行各种复杂的行动。

我认为，Language Agent 是人工智能进化的关键一步，其地位堪比人类文明演进中“语言”的诞生——它是一个爆炸式的加速剂。

三、从 Web 到 Desktop，Agent 的演变脉络

小俊： 过去三年里，Agent 的演化速度简直是“压缩式”的，您怎么看这段历史？

苏玉： 这确实是一个令人兴奋的压缩时间线：

2022 年： CoT（思维链）和 ReAct 的出现，将推理扩展到了外部环境。我们组也推出了 LLM Planner 和 Mind2Web，这是最早期的 Web Agent 尝试。
2023 年： Meta 的 Toolformer 证明了模型调用工具的威力。随后 AutoGPT 的爆火，标志着大众对 Agent 的感知进入了新阶段。GPT-4o 发布后，Agent 转向多模态，例如我们的 MMMU 和 C-ACT。
2024 年至今： 随着 OS World、U-Ground 等项目的出现，Agent 开始从 Web 走向桌面（Desktop）和移动端。现在的 Agent 越来越像人一样使用电脑：视觉感知（Visual Perception）+ 像素级操作（Pixel-level actions）。

四、展望：Coding Agent 与未来世界的入口

小俊： 大家都说 Coding Agent 是目前感知最强的，您怎么看代码在 Agent 中的地位？

苏玉： 代码（Coding）是数字世界的底层 Fabric（织物）。

很多人问我，未来 Agent 交互到底是 GUI（图形界面）还是 CLI（命令行）？我认为 GUI 不会消失，因为人是视觉生物；但 Agent 并不一定需要 GUI，它们可以通过代码和 API 直接交互。

Coding Agent 之所以火，是因为代码能打破 Boundary。 通过代码，你可以将 GUI 的操作逻辑转化成等价的执行逻辑。我认为未来大家追求的是一个 Universal Digital Agent（通用数字智能体），而 Coding 是打破各种碎片化界面的利器。

五、创业：为什么现在是做 Specialization 的最好时机？

小俊： 很多研究者现在选择创业，您的公司 Neocognition 的核心愿景是什么？

苏玉： 我们关注的是 Specialized Intelligence（专业化智能）。

通用智能（AGI）固然重要，但世界由数百万个小世界组成（HR、财务、法务等）。每一个小世界都需要深度专业化。大模型公司往往倾向于做通用平台，而这些“小世界的专家级 Agent”，才是创业公司的巨大机会。

我们希望研发出一套 Continued Learning（持续学习） 的方法，让 Agent 能够通过在真实环境中的部署（Deployment）来不断进化，内化出属于特定领域的“专家模型”。

写在最后： 现在的 AI 研究正处于一个混乱但充满机遇的阶段。虽然现在的 Agent 还存在不可靠、昂贵等痛点，但正如当年我们从专家系统走向 LLM，解决这些瓶颈的过程，正是我们构建下一代数字文明的过程。

感谢苏玉老师的分享。如果你对 Agent 感兴趣，欢迎关注我们的工作室公众号“语言及世界（Language is world）”，一起探索这个充满变数的智能未来。

注：本文内容整理自访谈记录，标点与排版已进行书面规范化处理。 💡

139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射

深度解析：AI Agent 的演进史与未来，一位一线学者的技术综述 🤖

一、 溯源：Agent 并非新事物，它是 AI 的底色

二、 为何说“语言”是 Agent 的加速剂？

三、 从 Web 到 Desktop，Agent 的演变脉络

四、 展望：Coding Agent 与未来世界的入口

五、 创业：为什么现在是做 Specialization 的最好时机？

一、溯源：Agent 并非新事物，它是 AI 的底色

二、为何说“语言”是 Agent 的加速剂？

三、从 Web 到 Desktop，Agent 的演变脉络

四、展望：Coding Agent 与未来世界的入口

五、创业：为什么现在是做 Specialization 的最好时机？