在科技界万众瞩目的时刻,埃隆·马斯克通过其自创的X平台,向全球直播发布了一款名为Grok 4的人工智能聊天机器人新版本。这款产品的发布不仅预示着人工智能领域的又一次重大飞跃,也引发了业界的广泛讨论。
直播中,马斯克身着标志性的皮夹克,在xAI团队成员的簇拥下,详细介绍了Grok 4的强大性能。据他介绍,Grok 4在SAT和GRE等各类学科考试中均能取得近乎满分的成绩,其智能水平甚至超越了大多数博士生。马斯克坦言:“我们已经没有更多的测试题来挑战它了,现实才是最终的考验。”他还幽默地补充说,尽管Grok 4有时可能缺乏常识,且尚未能发明新技术或发现新的物理学理论,但这只是时间问题。
值得注意的是,就在发布会前夕,xAI的首席科学家Igor Babuschkin突然辞职,这无疑为这场发布会增添了一丝神秘色彩。然而,这并未影响Grok 4的惊艳亮相。在一张xAI团队成员的合照中,可以清晰地看到,该团队中超过70%的成员都是亚洲面孔。
马斯克在直播中强调,Grok 4系列包含两个版本:Grok 4和Grok 4 Heavy。这两款模型都是纯推理模型,没有非推理模式。Grok 4在“人类终极考试”中,即使在不使用任何工具和额外智能体的情况下,也取得了50.7%的得分。而配备了“深度搜索”工具的Grok 4 Heavy,则能从网络,尤其是X平台上抓取实时数据,从而在对话中直接提供最新结果。
xAI声称,在多项基准测试中,Grok 4都展现出了前沿水平。在“人类的最后考试”中,Grok 4在没有工具辅助的情况下,获得了25.4%的准确率,超过了谷歌的Gemini 2.5 Pro和OpenAI的o3。而在配备了工具后,Grok 4 Heavy的得分更是高达44.4%,远超同类模型。在ARC-AGI-1和ARC-AGI-2测试中,Grok 4也取得了优异的成绩,几乎刷新了所有商业模型的最佳成绩。
除了强大的推理能力外,Grok 4还对互联网文化有着深刻的理解。它能高精度解读meme、俚语和幽默内容,有望成为目前最“懂网络”的AI助手之一。马斯克表示,Grok 4不仅支持文本,未来还将支持图像,甚至可能支持视频处理,这将使其在多模态能力上更接近OpenAI的GPT-5o和谷歌的Gemini 2.5 Pro。
在发布之前,xAI还让独立AI基准测试与分析平台Artificial Analysis对Grok 4进行了全面测试。结果显示,Grok 4的人工智能分析智能指数达到73,领先于OpenAI的o3、谷歌的Gemini 2.5 Pro等其他顶尖模型。在编码指数和数学指数中,Grok 4也同样领先。
马斯克在直播中还提到了Grok 4在编码方面的卓越表现。他表示,将整个源代码文件复制粘贴到Grok的查询输入框中后,Grok 4就能开始自动修复代码,其性能甚至超越了现有的Cursor模型。这一功能无疑将为开发者带来极大的便利。
对于Grok 4如此强大的性能表现,xAI的研究科学家Tony Wu在直播中进行了详细解读。他指出,从Grok 3到Grok 4,团队将大量的计算资源投入到了推理和强化学习中。借助Grok 4 Heavy中新增的工具和多智能体系统,该模型在严苛的人文硕士考试基准测试中解决了超过50%的文本问题,实现了显著的飞跃。马斯克也将这一飞跃归功于大规模计算扩展,并称赞xAI的Colossus超级计算机已扩展到20万个GPU,使其在强化学习中的计算能力远超竞争对手。
Grok 4的发布在Hacker News、Reddit等平台上引发热议。网友们纷纷表示,这款新模型在人类最后的考试基准测试中的得分令人印象深刻,甚至有人预测OpenAI的新模型可能会在不久后发布,以应对Grok 4带来的挑战。