Claude Sonnet 4.6发布实力升级,马斯克Grok 4.20同期上线口碑两极

   时间:2026-02-18 09:23 来源:天脉网作者:任飞扬

完成高达300亿美元的融资后,人工智能公司Anthropic终于交出了其首份技术答卷。该公司正式发布了新一代模型Claude Sonnet 4.6,并宣称其为“史上最强Sonnet版本”。这一升级覆盖了编程、计算机操作、长上下文推理以及智能体规划等多个核心领域,且在保持原有价格体系不变的情况下,性能表现已接近高端型号Opus的水平。

在对比测试中,Sonnet 4.6展现出了显著优势。数据显示,59%的用户更倾向于选择Sonnet 4.6而非Opus 4.5,主要原因是其过度工程化现象减少、幻觉问题降低,以及在多步骤任务执行中的稳定性更强。这一结果无疑为Anthropic在激烈的市场竞争中增添了重要筹码。

计算机操作能力的提升是此次升级的一大亮点。经过16个月的持续优化,Sonnet系列在OSWorld基准测试中的表现已接近人类水平,能够熟练处理复杂电子表格和填写多步骤网页表单等任务。这一突破对于众多依赖老旧软件的企业而言意义重大,因为它们无需再为这些软件开发专门的连接器,从而大幅降低了工程成本。

针对金融行业用户,Anthropic还同步升级了Excel中的Claude插件,新增了MCP连接器支持,进一步提升了其实用性。Sonnet 4.6还支持高达100万token的超大上下文,足以在一次请求中处理完整代码库、数十篇论文或大量合同文件,为需要处理大量数据的用户提供了极大便利。

在模拟企业运营的评估Vending-Bench Arena中,Sonnet 4.6展现出了出色的长期规划能力。它能够在前期大举投资产能,然后在最后阶段迅速转向盈利导向,通过精准把握转折时机来甩开其他竞争对手。这一策略不仅体现了其强大的推理能力,也为企业在实际运营中提供了有益的参考。

对于普通用户而言,Free和Pro方案的默认模型已经切换为Sonnet 4.6,用户可以在claude.ai和Claude Cowork上同步体验到这一升级带来的变化。而对于开发者来说,API模型标识为claude-sonnet-4-6,支持自适应思考和扩展思考功能。同时,上下文压缩功能可以在对话接近上下文限制时自动总结旧内容,既节省了token又提高了使用效率。

就在Sonnet 4.6发布的同时,马斯克旗下的xAI也推出了Grok 4.20测试版。该版本支持并行调度四个专业智能体协同执行任务,但整体口碑却呈现出两极分化的态势。由于此前预期过高,导致不少用户在体验后感到失望,纷纷给出差评。面对这一局面,马斯克迅速在社交媒体上连发多条推文进行解释和安抚。

他解释称,目前的Grok 4.20只是一个参数量为500B的小型基础模型,尚处于公测阶段。他强调,Grok 4.20的底层架构具备每周自我迭代的能力,递归式智能增长空间巨大。马斯克还承诺,在公测结束后,Grok 4.20的智能和速度将比Grok 4提升约一个数量级。然而,这一承诺能否如期兑现,仍有待市场和用户的进一步检验。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报 鲁公网安备37010202700497号