近日,阿里通义千问重磅推出其最新推理模型Qwen3-30B-A3B-Thinking-2507,标志着该公司在人工智能领域又迈出了坚实的一步。
与今年4月发布的Qwen3-30-A3B模型相比,新模型在多个关键性能指标上实现了显著提升。特别是在推理能力方面,Qwen3-30B-A3B-Thinking-2507在聚焦数学能力的AIME25评测中取得了85.0的高分,同时在代码能力测试LiveCodeBench v6中也获得了66.0的优异成绩。这两项核心推理能力的表现均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)等竞争对手。
不仅如此,新模型在知识水平方面也取得了显著进步。在GPQA和MMLU-Pro等评测中,Qwen3-30B-A3B-Thinking-2507的表现均较上一版本有了明显提升。这进一步证明了该模型在广泛知识领域内的深厚积累和卓越表现。
在通用能力方面,Qwen3-30B-A3B-Thinking-2507同样表现出色。在写作(WritingBench)、Agent能力(BFCL-v3)、多轮对话和多语言指令遵循(MultiIF)等评测中,该模型均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)等同类模型。这些评测结果充分展示了Qwen3-30B-A3B-Thinking-2507在多个应用场景下的广泛适用性和卓越性能。
新模型在上下文理解方面也取得了重大突破。它原生支持256K tokens的上下文长度,并可扩展至1M tokens,这为用户提供了更加灵活和强大的上下文处理能力。Qwen3-30B-A3B-Thinking-2507的思考长度也有所增加,官方建议在处理高度复杂的推理任务时,设置更长的思考预算以充分发挥其潜力。
目前,Qwen3-30B-A3B-Thinking-2507已在魔搭社区和HuggingFace平台上开源,用户可以轻松获取并部署该模型。由于其轻量的体积设计,该模型甚至可以在消费级硬件上实现本地部署,大大降低了用户的使用门槛。同时,Qwen Chat也同步上线了新模型,为用户提供更加智能和高效的聊天体验。