马斯克xAI公司震撼发布Grok 4大语言模型
在人工智能领域掀起新一轮风暴的,无疑是马斯克旗下的xAI公司。近日,该公司正式推出了其最新一代大语言模型——Grok 4,并同步亮相了多智能体协作版本Grok 4 Heavy。马斯克自信地宣称,Grok 4已成为“全球顶尖的人工智能模型”,其智能水平已全面超越了博士智力。
据xAI介绍,Grok 4在训练计算量上实现了前所未有的飞跃。与上一代Grok 2相比,其训练量激增100倍。特别是在推理和强化学习领域,Grok 4投入的计算资源是其他模型的十多倍。这一成就得益于xAI所拥有的由10万块H100 GPU组成的“超级计算机”。而仅在12个月前,Grok 2还只是一个概念性的存在,如今其智能水平已相当于高中生。
在严苛的基准测试中,Grok 4展现出了令人瞩目的实力。在被誉为“人类智慧终极考验”的HLI基准测试中,Grok 4在未借助任何工具的情况下,成功解决了25%的问题。而其多智能体版本Grok 4 Heavy,通过并行协作,进一步将文本子集问题的解决率提升至50%以上。Grok 4在包括PhD级别问题集在内的所有推理基准测试中均表现出色,并在编码基准和数学竞赛中斩获满分,遥遥领先于第二名。
Grok 4的强大能力已在多个实际应用场景中得到了验证。在模拟商业环境的“自动售货机基准测试”中,Grok 4创造了最佳表现,其创造的净资产是第二名模型的两倍,并能长期保持稳定的策略。在生物医学研究领域,Grok 4能协助科学家筛选数百万份实验日志,迅速提出最佳假设,并已成功应用于CRISPR研究中。在游戏开发领域,Grok 4展现了惊人的能力,仅需4小时即可生成第一人称射击游戏,并通过自动化资产采购,极大提升了开发效率。
Grok 4不仅在学术和商业领域大放异彩,还能基于数据分析预测世界杯赔率、查找特定内容或生成复杂的时间线。它还能生成大致正确的双黑洞碰撞可视化,展示了其在复杂科学问题上的处理能力。
目前,Grok 4及其多智能体版本Grok 4 Heavy已通过订阅服务向公众开放。开发者可以通过API接口访问这些模型,其上下文长度高达256K。xAI还公布了Grok语音模式的显著提升,端到端延迟降低了一半,并引入了多款更加自然、富有情感的新声音,如具有史诗般低沉声线的Sal和能表达丰富情感的英伦女声Eve。
尽管在多模态理解方面,特别是图像理解和生成上,Grok 4仍存在一些“盲点”,但xAI表示,其基础模型的第七个版本将解决这一问题。该版本计划在几周内完成训练,未来模型将能够像人类一样“感知世界”。同时,xAI正在加速推进视频生成模型的训练,预计今年将推出首部可观看的AI生成电视节目片段,明年有望呈现首部AI电影。