139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射

Zhang Xiaojun Podcast

深度解析:AI Agent 的演进史与未来,一位一线学者的技术综述 🤖

大家好,我是小俊。

在之前的节目中,我们深入探讨了 AI 的进化,见证了它从 Chat(对话)时代走向 Agent(智能体)时代的跃迁。毫不夸张地说,Agent 是 2026 年人工智能领域当之无愧的“高频词”。

关于 Agent,我一直希望能从技术原理层面为大家做一次深度拆解,清晰地梳理出这条技术的脉络。今天,我有幸邀请到了 俄亥俄州立大学(OSU)计算机系教授,同时也是创业公司 Milkognition 的创始人——苏玉

苏老师是极少数亲历了 Agent 完整演化史的学者。他不仅深耕 Language Agent(语言智能体)研究,更是 2025 年斯隆研究奖(Sloan Research Fellowship)的得主。在这期播客中,我们将从更长的时间维度复盘 Agent 的进化史,特别是近三年 Language Agent 的快速迭代。

祝大家五一假期学习快乐,期待 2026 年我们与 AI 共同进步!


一、 溯源:Agent 并非新事物,它是 AI 的底色

小俊: 苏老师,最近 OpenCloud 非常火,很想借此机会聊聊 Agent 的综述。能不能请您先做一个简单的自我介绍,并谈谈您对 Agent 的历史认知?

苏玉: 大家好,我是苏玉。我在清华读完本科后赴美深造,后来在 OSU 开启了 NLP 研究组,比较关注计算机使用(Computer Use)Agent 以及多模态大模型(如 MMMU Benchmark)。去年我搬到硅谷创办了 Neocognition,专注于 Agent 相关研究。

关于 Agent,它其实不是什么新概念,而是贯穿 AI 始终的基石

如果给 Agent 下一个定义:它是一个有边界的实体,在特定的环境中有目的地去进行活动(Goal-Directed Activities)。从这个视角看,不仅是 AI,甚至连所有动物、尤其是人,都是高级的 Agent。

我们可以将 AI Agent 的演进简单归纳为三个阶段:

  1. 逻辑智能体(Logical Agent,1950s - 1990s): 那是 AI 的鸿蒙时期,代表是“专家系统”。通过逻辑语言和推理引擎来解决问题。但后来由于知识获取成本太高(专家系统无法兑现诺言),导致了 AI 寒冬。
  2. 神经网络智能体(Neural Agent,2000s - 2020s): 随着深度强化学习(Deep RL)的发展,大家开始在虚拟环境(如 Atari 游戏、AlphaGo、Dota)里训练 Agent。但其泛化能力和“样本效率”依然很低,输入输出高度受限。
  3. 语言智能体(Language Agent,2022s 至今): 随着大语言模型(LLM)的出现,AI 进化到了新阶段。语言成为了 Agent 的“脚手架”,极大扩展了其感知、推理与行动的边界。

二、 为何说“语言”是 Agent 的加速剂?

小俊: 在您的研究中,为什么将现在的 Agent 定义为 Language Agent?语意解析(Semantic Parsing)和它本质区别是什么?

苏玉: 这是一个很好的问题。以前的语义解析受限于环境,必须针对特定数据库或知识图谱开发。而 LLM 提供了一个极强的“先验知识”(Prior),内置了一个基于语言的世界模型。

LLM 给 Agent 带来了质变:

  • 作为脚手架(Scaffold): 我们可以通过 Chain of Thought(思维链)实现“自适应推理”。任务越复杂,消耗的 Token 越多,计算量越具弹性。
  • 作为媒介(Media): 语言涵盖了自然语言、代码、甚至视觉符号,这让 Agent 能在数字世界中进行各种复杂的行动。

我认为,Language Agent 是人工智能进化的关键一步,其地位堪比人类文明演进中“语言”的诞生——它是一个爆炸式的加速剂。

三、 从 Web 到 Desktop,Agent 的演变脉络

小俊: 过去三年里,Agent 的演化速度简直是“压缩式”的,您怎么看这段历史?

苏玉: 这确实是一个令人兴奋的压缩时间线:

  • 2022 年: CoT(思维链)和 ReAct 的出现,将推理扩展到了外部环境。我们组也推出了 LLM PlannerMind2Web,这是最早期的 Web Agent 尝试。
  • 2023 年: Meta 的 Toolformer 证明了模型调用工具的威力。随后 AutoGPT 的爆火,标志着大众对 Agent 的感知进入了新阶段。GPT-4o 发布后,Agent 转向多模态,例如我们的 MMMUC-ACT
  • 2024 年至今: 随着 OS WorldU-Ground 等项目的出现,Agent 开始从 Web 走向桌面(Desktop)和移动端。现在的 Agent 越来越像人一样使用电脑:视觉感知(Visual Perception)+ 像素级操作(Pixel-level actions)。

四、 展望:Coding Agent 与未来世界的入口

小俊: 大家都说 Coding Agent 是目前感知最强的,您怎么看代码在 Agent 中的地位?

苏玉: 代码(Coding)是数字世界的底层 Fabric(织物)。

很多人问我,未来 Agent 交互到底是 GUI(图形界面)还是 CLI(命令行)?我认为 GUI 不会消失,因为人是视觉生物;但 Agent 并不一定需要 GUI,它们可以通过代码和 API 直接交互。

Coding Agent 之所以火,是因为代码能打破 Boundary。 通过代码,你可以将 GUI 的操作逻辑转化成等价的执行逻辑。我认为未来大家追求的是一个 Universal Digital Agent(通用数字智能体),而 Coding 是打破各种碎片化界面的利器。

五、 创业:为什么现在是做 Specialization 的最好时机?

小俊: 很多研究者现在选择创业,您的公司 Neocognition 的核心愿景是什么?

苏玉: 我们关注的是 Specialized Intelligence(专业化智能)

通用智能(AGI)固然重要,但世界由数百万个小世界组成(HR、财务、法务等)。每一个小世界都需要深度专业化。大模型公司往往倾向于做通用平台,而这些“小世界的专家级 Agent”,才是创业公司的巨大机会。

我们希望研发出一套 Continued Learning(持续学习) 的方法,让 Agent 能够通过在真实环境中的部署(Deployment)来不断进化,内化出属于特定领域的“专家模型”。

写在最后: 现在的 AI 研究正处于一个混乱但充满机遇的阶段。虽然现在的 Agent 还存在不可靠、昂贵等痛点,但正如当年我们从专家系统走向 LLM,解决这些瓶颈的过程,正是我们构建下一代数字文明的过程。

感谢苏玉老师的分享。如果你对 Agent 感兴趣,欢迎关注我们的工作室公众号“语言及世界(Language is world)”,一起探索这个充满变数的智能未来。


注:本文内容整理自访谈记录,标点与排版已进行书面规范化处理。 💡