在人工智能领域,一场关于具身智能的变革正悄然兴起。当业界还在探讨大语言模型(LLM)的潜力边界时,蚂蚁集团旗下的蚂蚁灵波科技(Robbyant)以一系列开源成果,将物理AI的探索推向了新的高度。连续四天,四款具身智能模型——高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World以及具身世界模型LingBot-VA——相继问世,引发了全球AI社区的广泛关注。
蚂蚁灵波的崛起并非偶然。早在2025年成立之初,这家公司便肩负着在具身领域探索通用人工智能(AGI)的使命。蚂蚁灵波CEO朱兴在采访中透露,蚂蚁的AGI版图涵盖数字智能与物理智能两大板块。在设立灵波科技前,蚂蚁已通过投资多家相关企业,布局了整机、核心零部件、灵巧手及具身大模型等关键环节。而灵波科技的成立,则标志着蚂蚁正式将AI的触角从数字世界延伸至物理世界。
“我们笃定数字世界的智能远未达到极限,语言模型、多模态模型、视频生成模型仍将持续进化。”朱兴表示,“但与此同时,我们也在探索另一条路径——从物理交互出发,在真实世界中构建智能。”这一理念在灵波科技的技术路线中得到了充分体现。与当前流行的“Sim-to-Real”(从仿真到现实)路径不同,灵波科技选择了“互联网数据+真实数据”的组合,试图通过真实世界的反馈来训练具身智能模型。
蚂蚁灵波首席科学家沈宇军指出,仿真数据虽能解决部分训练数据稀缺的问题,但在流体、柔性物体及传感器误差等复杂场景中,仿真往往难以准确模拟现实。相比之下,真实数据虽然成本较高,但随着产业发展和数据采集技术的进步,这一问题将逐步得到解决。灵波科技的实践验证了这一思路的可行性。基于超两万小时的高质量真机数据预训练,LingBot-VLA在权威评测中超越了多项国际顶尖基线,成为现实世界机器人技术的一大突破。
在四款开源模型中,LingBot-VA无疑是最具野心的作品。作为全球首个用于通用机器人控制的因果视频-动作世界模型,它通过视频生成模型实现“想象”,结合多模态模型的逻辑推理,再叠加真实环境的反馈,构建了视频预测与现实行动之间的闭环。这一模型仅需30-50次真实世界演示即可学习新技能,成功率比常见基准模型高出约20%。沈宇军表示:“我们不是在死记硬背仿真数据,而是在试图理解物理规律。”这一理念与图灵奖得主Yann LeCun关于AI在物理世界中实现预测的呼吁不谋而合。
除了LingBot-VA,灵波科技的其他模型也各具特色。LingBot-Depth通过深度传感器误差作为掩码优化深度图,大幅降低了视觉深度相机的误差;LingBot-World则开源了视觉效果堪比谷歌Genie 3的实时可交互世界模型,为具身智能的模拟奠定了基础。这些技术的开源,不仅为全球AI社区提供了新的工具,也展现了蚂蚁灵波推动行业进步的决心。
在朱兴看来,具身智能仍处于早期阶段,技术路线尚未收敛。因此,蚂蚁灵波更关注模型能力的上限探索以及如何降低生态伙伴的后训练成本。为此,公司不仅开源了四款核心模型,还同步发布了高效的后训练代码,希望以此降低行业门槛,推动具身智能的普及。朱兴的逻辑清晰而坚定:“在路线尚未明确的早期阶段,开源是推进行业进步的最优解。”
蚂蚁灵波的野心不止于此。与特斯拉Optimus“造脑也造驱干”的封闭模式不同,灵波科技希望成为机器人领域的“安卓系统”。通过跨构型路径和与数据提供商的深度合作,灵波科技试图构建一个开放的生态系统,让硬件厂商能够以更低的成本将灵波的“大脑”适配到自己的“身体”上。这一策略不仅体现了蚂蚁灵波的技术自信,也为其在未来的竞争中奠定了基础。
当然,挑战依然存在。沈宇军指出,强化学习的具体落地范式尚未收敛,AI推理中至关重要的“慢思考”能力仍在探索中。但背靠蚂蚁集团的AGI整体战略、业界一梯队的AI基础设施支持以及坚定的资金投入,灵波科技显然已经做好了长期作战的准备。随着四款模型的连续发布和开源,蚂蚁的AI战略实现了从数字世界到物理世界的关键延伸。一个深度融合、开源开放并服务于真实场景的AGI生态,正在加速成型。













