马斯克Grok-4发布,AI界新霸主?比博士生还聪明,满分通过数学竞赛

   时间:2025-07-10 15:49 来源:天脉网作者:苏婉清

全球科技界翘首以盼的盛事终于落幕,埃隆·马斯克携其“世界最强”AI模型Grok 4震撼发布。这一发布不仅标志着AI技术的新里程碑,更在“人类最后考试”上,以突破50%准确率的卓越表现,引领AI进入全新纪元。

Grok 4的发布直播中,马斯克与斯坦福大学博士后吴宇怀(Tony)Wu及多伦多大学出身的2023年斯隆奖得主Jimmy Ba共同揭开了其神秘面纱。据马斯克介绍,Grok 4在训练中融入了原生工具,使其在多项基准测试中表现非凡,尤其是在“人类最后考试”上,Grok 4 Heavy版本达到了44.4%的准确率,相比之前的顶尖模型Gemini-2.5-Pro,提升近18个百分点。若测试时同时训练并融入工具,其准确率更是飙升至50.7%,远超普通人类的5%平均水平。

马斯克毫不吝啬地称赞道,Grok 4的智力已超越所有领域的博士生,甚至在未提前接触题目的情况下,也能在SAT考试中取得近乎完美的分数,GER考试也近乎满分。他还预测,最晚明年,我们就能见证Grok在物理学领域的新发现。

在发布直播中,Grok 4在其他基准测试上的表现同样令人瞩目:GPQA(研究生水平问答)得分88.9%,AIME25(美国数学邀请赛)满分,LCB(Jan-May)得分79.4%,HMMT25(数学推理)得分96.7%,以及USAMO25(美国数学奥林匹克竞赛)得分61.9%。为了直观展示Grok 4的智能水平,直播中还播放了其与ChatGPT的语音对话对比,Grok 4的表现明显更胜一筹。

Grok 4的成功并非偶然。马斯克透露,其训练量是Grok 2的100倍、Grok 3的10倍,尤其在强化学习方面投入了大量计算资源,依托xAI建设的20万卡计算集群完成。Grok 4在后训练过程中原生融入工具的策略,也极大地提升了其智能水平。这一策略使得Grok 4能够灵活调用工具完成复杂任务,如基于预测市场数据预测MLB世界大赛胜率、通过后牛顿近似模型模拟黑洞引力波碰撞等。

不仅如此,Grok 4在编程、药物发现等领域也展现出强大实力。在Live Coding Bench编程测试中几乎满分,预告未来将推出专门的快速+智能编程模型;在RKG药物基准测试中,成为唯一突破10%准确率的模型。在真实世界场景中,Grok 4同样表现出色,如在自动零售bench上排名第一,还能协助生物医疗领域筛选假设、分析数据。

马斯克还透露了Grok系列的未来规划:即将发布一个编程模型,后续多模态Agent、视频生成模型等也都在研发中。特斯拉最新固件中已偷偷加入了Grok的全功能版本,只待激活。马斯克表示,Grok将成为特斯拉的语音助手,彻底改变驾驶员与汽车的对话交互方式,并支持英语和汉语。同时,擎天柱人形机器人也将搭载Grok语音助手,作为其大脑。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报