Anthropic just dropped Opus 4.8... (WOAH)

Matthew Berman

🚀 Claude Opus 4.8 正式登场!性能更强,价格没变,AI 竞赛再次提速! 🚀

AI 领域的迭代速度已经快到让人窒息了。就在今天,Anthropic 正式发布了 Claude Opus 4.8。这款号称目前最智能的模型,不仅在判断力上更加敏锐,还带来了一系列令人振奋的新特性。

最关键的是:性能提升了,但成本依然维持原样。 💰 对于开发者和高频用户来说,这无异于一次变相的「加量不加价」。


🏎️ 速度狂人的福音:「Fast Mode」大提速

如果你和我一样是个「速度主义者」(Speed Maxi),那你一定会爱死这个更新。

Opus 4.8 的 Fast Mode(快速模式) 现在运行速度大约是标准模式的 2.5 倍。这意味着,如果以前它平均每秒处理 100 个 Token,现在可以达到惊人的 250 Tokens/s。⚡️

虽然 OpenAI 也有类似的快速模式,但在我个人的使用体验中,Anthropic 的快速模式在体感上依然稳居第一。更棒的是,Fast Mode 的价格现在降到了以前的三分之一,性价比直线飙升!


📊 榜单上的「屠榜」表现:真的赢了吗?

让我们来看一看大家最关心的 Benchmarks(基准测试) 数据。

SWE-bench Pro(软件工程基准测试) 中,Opus 4.8 拿到了 69.2% 的高分,比六周前刚发布的 Opus 4.7 提升了整整 5 个百分点。而 GPT-4o(视频中对应的 5.5)得分仅为 58.6%。

而在被称为「人类最后一场考试」的 Humanity's Last Exam 复杂推理测试中,Opus 4.8 展现出了绝对的统治力。无论是否使用外部工具,它都大幅领先于竞品。🏆

当然,数据归数据,「Vibe Check」(体感测试) 同样重要。在某些特定任务,比如终端命令导航(Terminal Bench 2.1)中,GPT 依然保持着微弱的领先优势。但这并不妨碍 Opus 稳坐我心中「最爱模型」的宝座。


🤖 杀手锏:Dynamic Workflows(动态工作流)

除了模型本身的性能提升,Anthropic 还推出了一个全新的重量级功能:Dynamic Workflows(动态工作流)

这是专门为解决「超大规模、超复杂任务」而设计的。想象一下,如果你需要对一个包含数千个文件的遗留代码库进行大规模迁移,或者是进行全服务范围的 Bug 猎杀,单靠一个 AI 代理(Agent)往往力不从心。

现在,Claude 可以动态编写编排脚本,并在单个会话中并行启动 数十甚至上百个子代理(Parallel Sub-agents)。🕵️‍♂️🕵️‍♀️

这些子代理会从不同的角度切入问题,甚至会扮演「对抗性角色」来互相质疑结果,直到答案趋于一致。这种多代理协作与验证的模式,极大地提高了最终产出的可靠性。


🏭 算力危机解除了?

之前 Anthropic 一直面临算力紧缺的问题,导致很多功能不敢全面放开。但随着他们与 XAI 达成 Colossus 集群租用协议,以及与 Amazon 的深度合作,Anthropic 似乎终于摆脱了「算力荒」。

这也是为什么他们现在敢放开手脚,推出这种动辄消耗数百万 Token 的「百人子代理」功能。这也侧面说明了,AI 竞赛已经进入了比拼算力底座和应用广度的新阶段。


🔮 下一站:Mythos 模型即将到来

在发布 Opus 4.8 的同时,Anthropic 还透露了一个重磅炸弹:

他们计划在未来几周内发布一个名为 Mythos 的全新等级模型。其智能水平将超越目前的旗舰 Opus。目前,Mythos 已在部分网络安全组织中进行预览测试。

看来,OpenAI 的团队现在肯定在加班加点,急着把下一代模型推向市场了。😅


🎮 实测心得:AI 也能写出「童年回忆」

在今天的直播中,我的同事用 Opus 4.8 写了一个名为《Steel Talons and Sky Assault》的射击游戏。

不得不说,效果真的太棒了!那种丝滑的操作感和游戏反馈,完全勾起了我的童年回忆。通过赞助商 Here.now 的一键发布功能,我瞬间就把这个游戏分享给了直播间的 2000 多名观众,完全不需要操心服务器和托管问题,极其丝滑。

总结一下: Opus 4.8 再次证明了 Anthropic 在逻辑推理和编码领域的顶尖地位。如果你追求极致的速度与智慧,那么今天就去 API 或 Cloud Code 里试试它吧!🚀


你觉得 Claude Opus 4.8 的表现符合预期吗?欢迎在评论区分享你的使用感受! 💬