在人工智能领域,一场由前Google DeepMind成员掀起的技术革新正引发广泛关注。这支6人团队成立的新公司Poetiq,通过构建元系统重新定义了大模型的应用方式,在复杂推理任务中展现出突破性表现。其研发的Gemini 3 Pro优化技术在ARC-AGI-2基准测试中以54%的准确率登顶排行榜,同时将计算成本压缩至行业最优水平的一半。
这个技术团队虽成立不足一年,却汇聚了来自DeepMind的资深专家,累计拥有53年人工智能研发经验。他们选择了一条与众不同的技术路径:不追求构建更大规模的模型,而是专注于开发能够智能调度现有模型的元系统。这种创新架构使系统能够自动生成针对特定任务的解决方案,通过组合不同模型的优势实现性能突破。
在12月8日公布的官方验证结果中,Poetiq系统在ARC-AGI-2半私有评估集上创造了新纪录。其纯Gemini配置方案以每题30.57美元的成本达成54%准确率,相比前纪录保持者Gemini 3 Deep Think(77.16美元/45%)实现双重超越。更引人注目的是,该系统在公共数据集上构建的帕累托前沿,同时推进了准确率与成本效率的边界。
技术核心在于其递归式元系统架构。该系统通过多轮交互实现自我优化:首先生成初步解决方案,再根据反馈持续改进,最终形成可靠答案。这种自我监控机制能够智能判断何时终止计算,有效避免算力浪费。测试数据显示,基于Grok-4-Fast的配置在保持高准确率的同时,成本比原始模型降低两个数量级;而开源模型GPT-OSS-120B的衍生方案,甚至实现了单题成本低于1美分的突破。
该系统的适应性在跨模型测试中得到充分验证。当应用于ChatGPT、Claude Haiku、Gemini等12个主流模型时,Poetiq均实现了准确率与成本的双重优化。这种表现源于其完全基于大语言模型的架构设计——从系统构建到运行监控,整个流程均由模型自主完成。这种递归式强化机制,使得系统能够快速整合新模型的能力,在Gemini 3和GPT-5.1发布后数小时内即完成适配并取得领先成绩。
选择ARC-AGI作为测试场源于其对复杂推理能力的严苛考验。该基准测试要求模型具备抽象推理、归纳总结和策略生成能力,恰好对应Poetiq系统的优势领域。通过让模型自主发现最优推理路径,系统能够在预算、算力等现实约束下,持续优化解决方案。这种设计理念在测试中得到充分验证:系统在处理多样化任务时展现出强大的自适应能力,能够根据任务特性动态调整模型组合策略。
技术团队透露,其开源配置旨在证明智能的本质不在于提示词工程,而在于构建能够自我进化的系统。通过多步骤验证和自我检查机制,系统能够逐步打磨解决方案,这种运行模式突破了传统大模型对提示词的依赖。随着任务多样性的增加,元系统的进化速度将进一步提升,为生成式AI在复杂场景的应用开辟新路径。












