134. 和谢晨聊“数据的综述”:AI和机器人数据的历史、版图、金字塔与Recipe

Zhang Xiaojun Podcast

AI 进化的“底层弹药”:从大模型到具身智能,数据产业正在发生什么?

在 2026 年,当我们谈论人工智能时,数据、算力、算法这“三驾马车”依然是绕不开的基石。但如果你仔细观察,会发现产业的重心正在悄然转移。

今天,我们特别邀请了光轮智能创始人兼 CEO 谢成(Steve),从内部人士的角度,为我们深度拆解 AI 领域最核心的一环——数据产业


💡 核心观点速递

  • 数据撞墙与数据荒漠:大语言模型(LLM)正面临互联网数据枯竭的“撞墙”难题;而具身智能(Robotics)则处在一片数据匮乏的“荒漠”之中。
  • 仿真不是玩具,而是先决条件:对于自动驾驶,仿真是一个加速器;但对于具身智能,仿真不仅是加速器,更是模型落地的先决条件。
  • 从“静态标注”到“教育系统”:AI 数据正在从早期的静态数据集标注,演变成类似于教育系统的存在。它不再只是告诉模型“什么是对的”,而是通过高阶反馈、纠错与评测,进行有针对性的“言传身教”。
  • “数据金字塔”的演进:未来的数据结构将以仿真为中心,配合人类第一人称视角的真实数据,共同驱动智能飞轮。

🚀 为什么说仿真不是“锦上添花”?

很多人认为仿真只是为了加速开发,但在谢成看来,这是一种误解。在具身智能领域,由于真机数据获取成本极高、难以规模化,仿真提供了一种“可复现、可修正”的物理环境

尤其在当前,当模型需要面对成千上万个复杂的任务场景时,仅靠实验室里的几台真机是远远不够的。通过仿真,我们可以构建出海量的物理场景,让 AI 在虚拟世界中进行“思考实验”,这才是通往通用智能的必经之路。

🔄 从“标注工厂”到“数据引擎”

过去我们认为,数据标注就是找人画框、打标签,这是一种劳动密集型的“标注工厂”。

但现在,产业正在发生质变。数据专家开始扮演“老师”的角色——他们不再仅仅进行基础标注,而是通过出题、评估模型输出、纠正模型逻辑(比如在做披萨时失误了如何挽救),来提升 AI 的泛化能力。这种基于反馈驱动的模式,被谢成称为“数据引擎”(Data Engine)。

📈 AI 数据产业的未来格局

谢成认为,未来的 AI 数据生态将形成四大势力的共生

  1. 大模型商(大脑):利用本体无关数据和仿真,追求极致的零样本泛化能力。
  2. 数据商(教练):不再是简单的外包工厂,而是提供专业评测与高质量反馈的共生伙伴。
  3. 本体商(硬件):负责将大脑落地,保证量产质量与稳定性。
  4. 场景商(实践):提供真实的作业环境(如工厂、商超、医疗),验证 AI 的真实执行力。

🎙️ 访谈精华:谢成的“反直觉”洞察

Q:你提到特斯拉的数据引擎在机器人领域可能不适用? Steve: 因为特斯拉拥有数百万辆在路上的车,这构成了其独特的数据闭环。但机器人领域目前不存在这种规模的存量,因此具身智能必须依赖“本体无关数据”(如仿真和人类数据)来弥补缺口。

Q:什么样的视频是“高质量”的 AI 数据? Steve: 反直觉的是,那种“完美完成任务”的视频价值有限,反而是“失败后修正”的数据更具价值。它更接近人的学习过程——从错误中获取经验,这对于培养 AI 的鲁棒性至关重要。

Q:什么时候数据问题会变得不重要? Steve: 可能永远不会有这一天。越优秀的智能体,对数据的饥渴程度越高。未来 AI 甚至会开始向 AI 学习,或者在仿真环境中通过自我博弈不断进化。到那时,我们提供的将不再是单纯的数据集,而是一个持续进化的“智能教育环境”。


结语

从“填鸭式”的数据标注,到构建“思考实验”的仿真环境,AI 正在从死记硬背走向系统化的智能进化。谢成团队正在做的,正是通过仿真与数据的深度结合,为具身智能铺设这条通往未来的道路。

如果你也关注 AI 产业的底层演进,欢迎在评论区留下你的见解! 我们期待在 2026 年与 AI 共同进步,探索更多未知的可能。


本文由“语言及世界”工作室出品,关注公众号,获取更多行业深度洞察。 🚀