上交团队携ML-Master 2.0登顶OpenAI基准测试,国产AI引领科研新范式

   时间:2025-12-25 17:49 来源:快讯作者:新智元

在人工智能与科研深度融合的浪潮中,一款名为ML-Master 2.0的自主智能体系统引发全球关注。由上海交通大学人工智能学院、上海算法创新研究院及深势科技联合研发的这款系统,基于国产开源大模型DeepSeek-V3.2-Speciale,在OpenAI权威评测基准MLE-bench中以56.44%的奖牌率登顶全球榜首,较国际顶尖团队基于闭源模型的方案提升28.3%。这一突破标志着中国团队在AI驱动科研探索领域实现关键范式革新。

区别于传统AI系统聚焦短程任务优化的路径,ML-Master 2.0专为机器学习工程(MLE)的复杂场景设计。真实科研场景中,科研人员常需在数十小时内经历假设验证、代码调试、结果分析的循环迭代,失败率远高于成功率。研发团队突破性地将"认知积累"作为核心架构,通过层次化认知缓存机制(HCC),将探索过程中产生的经验、知识与智慧分层管理:即时经验支撑当前决策,稳定知识服务同一任务,跨任务智慧为新问题提供策略起点。这种设计使系统在长时间运行中既能保持探索方向,又能避免"上下文爆炸"导致的认知混乱。

在MLE-bench的严苛测试中,ML-Master 2.0展现三大核心能力:其一,超长程自主性,可在持续数十小时的科研任务中保持目标聚焦;其二,高效试错机制,能从失败实验中提炼规律而非简单重复尝试;其三,认知迁移能力,能将已验证无效的技术路径主动排除,并将经验转化为可复用的认知资产。测试数据显示,该系统在完全无人工干预条件下,代码生成、调试修正与结果分析的完整闭环执行效率较国际同类产品提升显著。

目前,ML-Master 2.0已进入实际应用阶段,在理论计算物理模拟、具身智能机器人训练等前沿领域发挥关键作用。例如在量子材料研究中,系统通过自主设计实验方案,将传统需要数月的模拟周期压缩至两周;在机器人控制领域,其持续优化能力使机械臂操作精度突破行业基准。这些实践验证了AI科学家在真实科研场景中的可行性。

该系统的技术架构已通过GitHub开源平台向全球研究者开放,核心代码包含认知缓存管理、任务分解策略等创新模块。同时,SciMaster线上平台正式启动体验申请通道,通过"SciMaster的朋友圈"社区,科研人员可提前获取系统使用权。配套的EigenAI基础设施提供稳定算力支持,确保系统在复杂任务中的持续运行能力。

项目地址:
https://github.com/sjtu-sai-agents/ML-Master
SciMaster平台:
https://scimaster.bohrium.com/chat/

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报