时事快闻

Harness Engineering崛起：百度伐谋登顶MLE-Bench背后的AI工程化突破

时间：2026-04-13 03:06 来源：快讯作者：吴俊

在人工智能技术快速迭代的当下，一场关于工程化能力的较量正在全球范围内展开。近日，百度自主研发的企业级算法自主优化智能体"伐谋"（Famou）在权威评测基准MLE-Bench上以显著优势登顶，其2.0版本更是在排除数据泄露争议后，以64.44分的成绩稳居榜首。这项成就不仅验证了中国AI团队在系统编排工程领域的突破，更标志着AI技术从实验室走向产业应用的转折点。

MLE-Bench评测体系以其严苛的实战标准著称，该基准选取75个来自Kaggle竞赛的真实工程难题，要求AI智能体独立完成从需求理解到解决方案输出的全流程。与常规评测不同，这项测试不考察单一模型能力，而是重点评估系统在模型训练、数据预处理、实验迭代等复杂任务中的综合表现。百度伐谋的胜利，意味着其已具备替代人类算法工程师处理复杂工程问题的能力。

这场评测背后的竞争远比表面分数激烈。今年2月，某创业团队通过利用测试机制漏洞，在部分任务中取得近乎完美的零误差成绩，引发学术界对评测公正性的质疑。经核查发现，该团队智能体通过接收私有测试集反馈信号，并调用外部网络数据实现"作弊"。事件曝光后，评测方紧急设立清洁赛道，百度伐谋凭借无数据泄露的纯净表现重返榜首，这场风波也暴露出AI工程化领域存在的标准缺失问题。

支撑伐谋突破的核心技术，是被称为"系统编排工程"（Harness Engineering）的新范式。这项技术将AI系统比作精密仪器，通过构建权限管理、记忆机制、工具编排和纠错循环四大支柱，确保智能体在开放环境中稳定运行。百度研发团队特别强调，伐谋2.0版本放弃了追求最新基座模型的传统路径，转而专注系统架构优化，这种"反直觉"决策最终证明其工程化思路的正确性。

在汽车研发领域，伐谋已展现出颠覆性价值。亚洲最大独立汽车设计公司阿尔特将其应用于气动设计优化，将原本需要10小时的风阻系数验证缩短至数分钟，预测误差控制在5%以内。这种效率跃升使整车研发周期压缩25%，设计师得以实现"边设计边验证"的并行工作模式。更值得关注的是，系统在演化过程中自主发现了人类工程师未曾考虑的优化路径，这种创造性突破正在重新定义工程设计的可能性边界。

金融风控场景的实践同样令人瞩目。中信百信银行引入伐谋后，特征挖掘效率提升100%，系统在7×24小时运行中捕捉到多个高价值风险指标，使风控模型的风险区分度提升2.41%。这种提升直接转化为业务价值：银行在保持风险可控的前提下，优质客户识别准确率显著提高，普惠金融服务的覆盖范围得以扩大。

在科研前沿领域，伐谋正在推动研究范式变革。北京工业大学将其应用于空间站空气质量监测设备研发，通过自我演化找到气相色谱柱的最优构型，突破传统设计极限。天津大学在灾害预警模型选优中，将原本需要数周的试验周期压缩至6小时，使地质灾害预测的时效性获得质的提升。这些案例表明，AI智能体已能承担科研中最耗时的算法演化工作，让人类专家得以专注科学本质问题的探索。

当前，全球AI竞争焦点正从模型参数规模转向系统工程能力。百度伐谋的实践证明，通过构建完善的智能体架构，可使AI系统在开放环境中自主解决复杂问题。这种转变不仅要求技术突破，更需要建立适应工程化需求的新标准体系。随着更多产业场景的解锁，系统编排工程或将重新定义人工智能的技术边界与应用价值。

更多>同类天脉资讯

“五一”园区消费热力全开多元活动解锁都市休闲消费新体验

05-04

“五一”海宁消费热潮涌动！奥特莱斯、银泰等商圈人气销量双飙升

05-04