在 AI 追赶与博弈的激流中,MOE (混合专家模型) 的技术范式正如日中天。无论是 Gemini 还是 GPT-4,其背后的技术架构都指向了这一共识。然而,关于如何将 MOE 应用于大模型,早期探索者的心路历程却鲜少为人所知。
🌟 抢跑 MOE:早于 GPT-4 的探索
事实上,很多后来被业界奉为“标准答案”的技术,都是由第一批顶尖团队率先“趟”出来的。
早在 2021 年,也就是 GPT-3 刚刚问世不久,Google Brain 的团队内部已经产生了一种紧迫感。那时,大家都憋着一股劲:一定要做一个比 GPT-3 更好、更全能的模型。
就是在这样的背景下,GLam 模型应运而生。虽然当时学术界已经出现了一些关于 MOE 的论文,但大多并未深入预训练阶段。2021 年,我们联合主导了这种融合 MOE、大规模预训练以及 Fine-tuning 的新尝试。通过这种架构,我们最终打造出了一个性能超越 GPT-3 的模型,这在当时是一个非常重要的里程碑 (Achievement) 🏆。
🚀 PaLM 2:谷歌史上的“顺风车”
到了 2022 年,大模型的竞赛进入白热化阶段。谷歌与 OpenAI 之间的压力几乎是物理级的感官存在。
在那段时间里,我主导了 PaLM 2 的预训练。说实话,那是我职业生涯中见过的最“顺手”的一次预训练。模型训练过程异常丝滑,各方面的表现都非常出色。
PaLM 2 实际上在 2023 年年初 就已经全线完工了。当时团队内部对此非常满意,因为从技术指标上看,它在当时确实具备统领全局的实力。
💔 遗憾:被“狙击”的发布会
然而,在顶级商业博弈中,仅有领先的技术是不够的。
虽然 PaLM 2 已经在年初就绪,但谷歌内部庞大的管理体系 (Bureaucracy) 决定了它必须在 Google I.O. 大会上统一发布。
这种节奏上的迟缓,给了对手可乘之机。OpenAI 显然非常清楚谷歌的动向——毕竟在硅谷,谷歌这样的大厂几乎没有任何秘密。OpenAI 掐准了时间点,抢在 Google I.O. 之前发布了 GPT-4 💥。
结果大家都知道了: GPT-4 的惊艳表现盖过了所有风头,它的性能指标也确实超越了 PaLM 2。
等到我们正式发布 PaLM 2 时,那种“世界第一”的先机已经失去了。如果我们能早一点发布,或许故事的版本就会改写:我们可以自豪地宣布,我们创造了当时世界上最强的模型。
现在回想起来,那种与“至高荣耀”擦肩而过的情绪,确实带着几分深深的可惜。😔