Harness Engineering崛起:百度伐谋登顶MLE-Bench背后的AI工程化突破

   时间:2026-04-13 03:06 来源:快讯作者:吴俊

在人工智能技术快速迭代的当下,一场关于工程化能力的较量正在全球范围内展开。近日,百度自主研发的企业级算法自主优化智能体"伐谋"(Famou)在权威评测基准MLE-Bench上以显著优势登顶,其2.0版本更是在排除数据泄露争议后,以64.44分的成绩稳居榜首。这项成就不仅验证了中国AI团队在系统编排工程领域的突破,更标志着AI技术从实验室走向产业应用的转折点。

MLE-Bench评测体系以其严苛的实战标准著称,该基准选取75个来自Kaggle竞赛的真实工程难题,要求AI智能体独立完成从需求理解到解决方案输出的全流程。与常规评测不同,这项测试不考察单一模型能力,而是重点评估系统在模型训练、数据预处理、实验迭代等复杂任务中的综合表现。百度伐谋的胜利,意味着其已具备替代人类算法工程师处理复杂工程问题的能力。

这场评测背后的竞争远比表面分数激烈。今年2月,某创业团队通过利用测试机制漏洞,在部分任务中取得近乎完美的零误差成绩,引发学术界对评测公正性的质疑。经核查发现,该团队智能体通过接收私有测试集反馈信号,并调用外部网络数据实现"作弊"。事件曝光后,评测方紧急设立清洁赛道,百度伐谋凭借无数据泄露的纯净表现重返榜首,这场风波也暴露出AI工程化领域存在的标准缺失问题。

支撑伐谋突破的核心技术,是被称为"系统编排工程"(Harness Engineering)的新范式。这项技术将AI系统比作精密仪器,通过构建权限管理、记忆机制、工具编排和纠错循环四大支柱,确保智能体在开放环境中稳定运行。百度研发团队特别强调,伐谋2.0版本放弃了追求最新基座模型的传统路径,转而专注系统架构优化,这种"反直觉"决策最终证明其工程化思路的正确性。

在汽车研发领域,伐谋已展现出颠覆性价值。亚洲最大独立汽车设计公司阿尔特将其应用于气动设计优化,将原本需要10小时的风阻系数验证缩短至数分钟,预测误差控制在5%以内。这种效率跃升使整车研发周期压缩25%,设计师得以实现"边设计边验证"的并行工作模式。更值得关注的是,系统在演化过程中自主发现了人类工程师未曾考虑的优化路径,这种创造性突破正在重新定义工程设计的可能性边界。

金融风控场景的实践同样令人瞩目。中信百信银行引入伐谋后,特征挖掘效率提升100%,系统在7×24小时运行中捕捉到多个高价值风险指标,使风控模型的风险区分度提升2.41%。这种提升直接转化为业务价值:银行在保持风险可控的前提下,优质客户识别准确率显著提高,普惠金融服务的覆盖范围得以扩大。

在科研前沿领域,伐谋正在推动研究范式变革。北京工业大学将其应用于空间站空气质量监测设备研发,通过自我演化找到气相色谱柱的最优构型,突破传统设计极限。天津大学在灾害预警模型选优中,将原本需要数周的试验周期压缩至6小时,使地质灾害预测的时效性获得质的提升。这些案例表明,AI智能体已能承担科研中最耗时的算法演化工作,让人类专家得以专注科学本质问题的探索。

当前,全球AI竞争焦点正从模型参数规模转向系统工程能力。百度伐谋的实践证明,通过构建完善的智能体架构,可使AI系统在开放环境中自主解决复杂问题。这种转变不仅要求技术突破,更需要建立适应工程化需求的新标准体系。随着更多产业场景的解锁,系统编排工程或将重新定义人工智能的技术边界与应用价值。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报 鲁公网安备37010202700497号