Grok 4发布:马斯克宣称超越博士水平,AI真有那么强?

   时间:2025-07-10 20:47 来源:天脉网作者:陆辰风

在科技界的万众瞩目下,xAI公司创始人马斯克于北京时间9月10日中午,通过一场虽延迟却充满期待的直播,正式揭晓了其最新研发的人工智能大模型——Grok 4。

据马斯克介绍,Grok 4在性能上已远超当前业界顶尖的大模型,包括OpenAI的o3、Gemini 2.5 Pro及Claude 4等,无论是在传统的基准测试,还是SAT考试及各科GRE水平测试中,均展现出了非凡的实力。然而,更令人瞩目的是Grok 4在人类终极考试(Humanity’s Last Exam,简称HLE)中的表现,其准确率高达44.4%,刷新了所有模型的记录。

直播中,马斯克自信地表示,Grok 4的智力水平已超过几乎所有学科的研究生,甚至在某些学术问题上,其表现优于博士水平,且毫无例外。他进一步透露,Grok 4的基础模型第七版将于本月完成,后续还将进行强化学习训练,并增强视频理解能力和工具调用能力。未来几个月,xAI还将推出代码模型、多模型智能体及视频生成模型。

在技术层面,Grok 4不仅刷新了多项基准测试的记录,如在AIME25(美国数学竞赛邀请赛)上取得满分,还在ARC-AGI及HLE测试中展现了卓越的学习能力。HLE测试由全球专家联合设计,涵盖了数学、生物、计算机科学等多个学科,旨在考验AI的极限智能。Grok 4在此测试中准确率高达25.4%,借助工具时更是提升至44.4%,远超之前的领先模型。

现场演示环节,Grok 4展示了其在商业场景模拟、实时信息抓取及复杂问题分析等方面的能力。例如,在自动售货机基准测试中,Grok 4的管理库存、联系供应商及设定价格等运营效率均高于Claude Opus 4及真人,创造的净值是真人的5倍以上。Grok 4还能遍览关键论文和资料,模拟两个黑洞接触的变化,展现出其在科研领域的潜力。

然而,尽管Grok 4在技术上取得了显著突破,其发布会却略显仓促。原定时间推迟近一小时,且直播过程中节奏紧凑,部分演示显然经过预先准备。更为引人注目的是,就在发布会前夕,xAI首席科学家Igor Babuschkin突然宣布辞职,这无疑为这场发布会增添了一丝不稳定的气息。尽管如此,马斯克仍对Grok 4充满信心,并透露“Grok 4 Heavy”才是当前最强版本,但尚处于内测阶段,未向公众开放。

面对全球最强的竞争对手——OpenAI的ChatGPT和Google的Gemini,Grok 4能否脱颖而出,不仅取决于其技术实力,更在于平台、生态和用户基础的建设。Grok 4的“有性格、敢说话、更自由”的人设虽为其赢得了关注,但也可能引发争议。因此,Grok 4的真正考验,将在于其在实际应用中的表现及用户的接受程度。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报