埃隆・马斯克旗下人工智能公司 xAI 近日有了新动作,其于11月17日正式推出最新大语言模型 Grok 4.1,并面向全体用户开启全面推送,这一消息引发了行业内外的广泛关注。
此次更新,xAI 着重提升 Grok 在真实世界场景下的可用性。官方介绍,Grok 4.1 不仅延续了前代模型在智能敏锐度和高可靠性方面的优势,还在创造性、情感理解以及协作互动等关键领域实现了重大突破。这使得新模型能够更精准地捕捉用户意图,为用户带来更具吸引力且人格连贯性更强的对话体验。
在性能表现上,Grok 4.1 堪称业界翘楚。在大型语言模型竞技场(LMArena)的文本能力排行榜中,其具备深度思考能力的版本(代号:quasarflux)凭借 1483 的 Elo 分数傲居榜首,领先第二名多达 31 分。而无需深度思考的“即时响应”版本也不甘示弱,以 1465 的 Elo 分数位列第二,甚至超越了其他所有模型的“全推理”模式。与前代 Grok 4(排名第 33 位)相比,此次新模型实现了质的飞跃,充分彰显了其在底层能力上的绝对优势。

除了通用能力表现出色,Grok 4.1 在“软实力”方面同样成绩斐然。在衡量模型情商的 EQ-Bench3 基准测试中,该模型的推理与非推理模式成功包揽榜单前两名,充分证明了其在情感理解、洞察力和人际交往能力方面的卓越表现。在评估创意能力的 Creative Writing v3 测试中,Grok 4.1 的两种模式也分别位列第二和第三,仅次于早期的 GPT - 5.1 模型。这意味着 Grok 4.1 不仅能够应对复杂的逻辑推理问题,还能更好地理解并回应带有情感色彩的提示,进行富有想象力的内容创作,让人机交互更具“人情味”。
值得一提的是,Grok 4.1 还有一个关键改进,即大幅降低了模型的“幻觉”率。对于配备搜索工具的快速响应模型而言,由于推理深度和工具调用预算有限,容易出现事实性错误。针对这一问题,xAI 在 Grok 4.1 的训练后期,专门针对优化信息查询类提示进行优化,致力于减少事实性幻觉。根据对真实世界查询样本的评估,新模型的幻觉率已显著降低,能够为用户提供更可靠、更准确的信息。












