AI 进化的“底层弹药”：从大模型到具身智能，数据产业正在发生什么？

在 2026 年，当我们谈论人工智能时，数据、算力、算法这“三驾马车”依然是绕不开的基石。但如果你仔细观察，会发现产业的重心正在悄然转移。

今天，我们特别邀请了光轮智能创始人兼 CEO 谢成（Steve），从内部人士的角度，为我们深度拆解 AI 领域最核心的一环——数据产业。

数据撞墙与数据荒漠：大语言模型（LLM）正面临互联网数据枯竭的“撞墙”难题；而具身智能（Robotics）则处在一片数据匮乏的“荒漠”之中。
仿真不是玩具，而是先决条件：对于自动驾驶，仿真是一个加速器；但对于具身智能，仿真不仅是加速器，更是模型落地的先决条件。
从“静态标注”到“教育系统”：AI 数据正在从早期的静态数据集标注，演变成类似于教育系统的存在。它不再只是告诉模型“什么是对的”，而是通过高阶反馈、纠错与评测，进行有针对性的“言传身教”。
“数据金字塔”的演进：未来的数据结构将以仿真为中心，配合人类第一人称视角的真实数据，共同驱动智能飞轮。

很多人认为仿真只是为了加速开发，但在谢成看来，这是一种误解。在具身智能领域，由于真机数据获取成本极高、难以规模化，仿真提供了一种“可复现、可修正”的物理环境。

尤其在当前，当模型需要面对成千上万个复杂的任务场景时，仅靠实验室里的几台真机是远远不够的。通过仿真，我们可以构建出海量的物理场景，让 AI 在虚拟世界中进行“思考实验”，这才是通往通用智能的必经之路。

过去我们认为，数据标注就是找人画框、打标签，这是一种劳动密集型的“标注工厂”。

但现在，产业正在发生质变。数据专家开始扮演“老师”的角色——他们不再仅仅进行基础标注，而是通过出题、评估模型输出、纠正模型逻辑（比如在做披萨时失误了如何挽救），来提升 AI 的泛化能力。这种基于反馈驱动的模式，被谢成称为“数据引擎”（Data Engine）。

谢成认为，未来的 AI 数据生态将形成四大势力的共生：

Q：你提到特斯拉的数据引擎在机器人领域可能不适用？ Steve： 因为特斯拉拥有数百万辆在路上的车，这构成了其独特的数据闭环。但机器人领域目前不存在这种规模的存量，因此具身智能必须依赖“本体无关数据”（如仿真和人类数据）来弥补缺口。

Q：什么样的视频是“高质量”的 AI 数据？ Steve： 反直觉的是，那种“完美完成任务”的视频价值有限，反而是“失败后修正”的数据更具价值。它更接近人的学习过程——从错误中获取经验，这对于培养 AI 的鲁棒性至关重要。

Q：什么时候数据问题会变得不重要？ Steve： 可能永远不会有这一天。越优秀的智能体，对数据的饥渴程度越高。未来 AI 甚至会开始向 AI 学习，或者在仿真环境中通过自我博弈不断进化。到那时，我们提供的将不再是单纯的数据集，而是一个持续进化的“智能教育环境”。

从“填鸭式”的数据标注，到构建“思考实验”的仿真环境，AI 正在从死记硬背走向系统化的智能进化。谢成团队正在做的，正是通过仿真与数据的深度结合，为具身智能铺设这条通往未来的道路。

如果你也关注 AI 产业的底层演进，欢迎在评论区留下你的见解！ 我们期待在 2026 年与 AI 共同进步，探索更多未知的可能。

本文由“语言及世界”工作室出品，关注公众号，获取更多行业深度洞察。 🚀

134. 和谢晨聊“数据的综述”：AI和机器人数据的历史、版图、金字塔与Recipe