“再早一点，我们就是世界最好的模型”| 专访Gemini前核心科学家Andrew Dai

在 AI 追赶与博弈的激流中，MOE (混合专家模型) 的技术范式正如日中天。无论是 Gemini 还是 GPT-4，其背后的技术架构都指向了这一共识。然而，关于如何将 MOE 应用于大模型，早期探索者的心路历程却鲜少为人所知。

🌟 抢跑 MOE：早于 GPT-4 的探索

事实上，很多后来被业界奉为“标准答案”的技术，都是由第一批顶尖团队率先“趟”出来的。

早在 2021 年，也就是 GPT-3 刚刚问世不久，Google Brain 的团队内部已经产生了一种紧迫感。那时，大家都憋着一股劲：一定要做一个比 GPT-3 更好、更全能的模型。

就是在这样的背景下，GLam 模型应运而生。虽然当时学术界已经出现了一些关于 MOE 的论文，但大多并未深入预训练阶段。2021 年，我们联合主导了这种融合 MOE、大规模预训练以及 Fine-tuning 的新尝试。通过这种架构，我们最终打造出了一个性能超越 GPT-3 的模型，这在当时是一个非常重要的里程碑 (Achievement) 🏆。

🚀 PaLM 2：谷歌史上的“顺风车”

到了 2022 年，大模型的竞赛进入白热化阶段。谷歌与 OpenAI 之间的压力几乎是物理级的感官存在。

在那段时间里，我主导了 PaLM 2 的预训练。说实话，那是我职业生涯中见过的最“顺手”的一次预训练。模型训练过程异常丝滑，各方面的表现都非常出色。

PaLM 2 实际上在 2023 年年初 就已经全线完工了。当时团队内部对此非常满意，因为从技术指标上看，它在当时确实具备统领全局的实力。

💔 遗憾：被“狙击”的发布会

然而，在顶级商业博弈中，仅有领先的技术是不够的。

虽然 PaLM 2 已经在年初就绪，但谷歌内部庞大的管理体系 (Bureaucracy) 决定了它必须在 Google I.O. 大会上统一发布。

这种节奏上的迟缓，给了对手可乘之机。OpenAI 显然非常清楚谷歌的动向——毕竟在硅谷，谷歌这样的大厂几乎没有任何秘密。OpenAI 掐准了时间点，抢在 Google I.O. 之前发布了 GPT-4 💥。

结果大家都知道了： GPT-4 的惊艳表现盖过了所有风头，它的性能指标也确实超越了 PaLM 2。

等到我们正式发布 PaLM 2 时，那种“世界第一”的先机已经失去了。如果我们能早一点发布，或许故事的版本就会改写：我们可以自豪地宣布，我们创造了当时世界上最强的模型。

现在回想起来，那种与“至高荣耀”擦肩而过的情绪，确实带着几分深深的可惜。😔