第三方编程评测机构CodeArena最新发布的榜单显示,阿里通义千问旗舰模型Qwen3.7-Max以1541分的成绩跻身全球AI编程能力前列,仅落后于Claude系列模型,在主流大模型厂商中排名第二。此次评测中,该模型超越了GPT-5.5、Gemini-3.5-Flash、GLM-5.1及Kimi-K2.6等知名模型,引发业界关注。
CodeArena的评测机制具有独特性,其由盲测平台LMArena开发,采用开发者命题、模型自主生成完整Web应用的方式,最终通过用户对匿名模型的两两对比投票确定排名。这种评测方式更贴近真实开发场景,被视为衡量AI编程实用性的重要指标。阿里技术团队透露,Qwen3.7-Max专为智能体(Agent)场景设计,在复杂任务处理和长周期运行能力上实现突破。
该模型的核心优势体现在工程化能力上。据官方披露,Qwen3.7-Max能够独立完成传统需要专业团队耗时两周的复杂项目,且在持续运行35小时、调用工具超千次的情况下,仍可完成芯片内核的自我优化编程。这种能力在需要高可靠性的工业级应用中具有显著价值,特别是在资源受限的边缘计算场景下表现突出。
开发者社区的反馈印证了模型的实用性提升。多位参与测试的工程师表示,新版本在长程任务自主执行方面表现优异,不仅推理成本较前代降低,输出速度和代码质量也有明显改善。有开发者举例称,使用该模型可自动生成包含前后端交互的完整管理系统,代码结构清晰且具备扩展性,大幅减少了人工调试时间。












