在科技界的万众瞩目下,xAI公司终于揭开了其最新力作——Grok 4的神秘面纱。这款被誉为下一代xAI大模型的产物,其能力之强大,超乎了所有人的预期。
发布会于北京时间中午时分准时开始,吸引了全球科技爱好者的关注。最令人惊喜的是,特斯拉和SpaceX的创始人埃隆·马斯克亲自现身直播间,为Grok 4站台。他信心满满地表示:“这是世界上最好的AI,让我们共同见证它的实力。”
据马斯克介绍,Grok 4在SAT考试(美国高考)中能够轻松获得满分,无需事先预览题目。在GRE考试中,它也能在任何学科上接近满分,这一表现甚至超过了全球所有研究生的水平。而Grok 4最引以为傲的,是其无与伦比的推理能力,已经超越了人类的水平。
马斯克坚信,Grok 4有望在年内实现科学新发现。这一预测无疑为科技界带来了新的期待和遐想。
Grok 4的推理能力之所以如此强大,得益于计算能力的增强和强化学习的训练。相较于前代,其推理能力提升了10倍。从Grok 2到Grok 4,技术范式不断迭代,从下一个token预测到预训练计算,再到预训练+RL,最终到RL计算,每一步都见证了技术的飞跃。
特别是在Grok 3到Grok 4的升级中,预训练阶段的计算量提升了10倍,同时首次引入了RL微调,为深度推理能力打下了坚实的基础。而在Grok 4中,强化学习的计算量再度提升了10倍,这意味着其推理能力得到了显著提升。
由于调用工具能力的提升,Grok 4进一步放大了其智慧。这使得它能够在各类高难度的Benchmark上取得远超当前最先进技术水平(SOTA)的成绩。在HLE(Humanities Last Exam,人类最后考试)基准测试中,Grok 4的表现尤为抢眼。尽管在之前的泄露版本中,其成绩曾引发质疑,但在直播中,xAI研究人员展示了Grok 4在使用工具情况下的最新成绩,远超其他SOTA模型。
除了HLE,Grok 4在其他基准测试中也取得了显著成绩。包括GPQA(研究生级别的Google验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛/在线算法竞赛)、HMMT25(高中生团队数学竞赛)和USAMO25(美国顶级高中生数学竞赛)等。在这些测试中,Grok 4 Heavy均取得了最新的SOTA成绩。
马斯克多次强调,Grok 4现在已经在所有学科上达到了博士后水平,没有例外。尽管它尚未发现新的科学或物理定律,但马斯克坚信这只是时间问题。他表示:“如果Grok在今年内没有发现实用的新科学技术,我会感到很意外。”
在展示Grok 4的具体能力时,xAI团队通过几个demo生动展现了其强大的功能。例如,Grok 4能够基于物理原理制作HTML动画,模拟两个黑洞碰撞并产生引力波的过程。这一动画不仅效果逼真,还附带了详细的推理过程和计算步骤,以及查阅的论文链接。
Grok 4还在语音能力上得到了显著提升。相较于上代,其语音速度快了2倍,端到端延迟更低,并支持5种语音。单日用户总停留时长也提升了10倍。同时,Grok 4还新增了Eve和Sal两个角色,其中Sal支持多种性格,Eve则可以唱歌和低语,为用户带来了更加丰富的交互体验。