全球人工智能领域近日迎来重大突破,中国科技企业蚂蚁集团旗下灵波科技连续四天发布四大开源模型,引发行业震动。这一系列动作不仅展示了中国在具身智能领域的技术实力,更标志着世界模型竞赛从封闭研发向开放生态的重大转变。紧随其后,谷歌宣布开放其世界模型项目体验平台,两大科技巨头的隔空交锋,为AI发展开辟了新的竞争维度。
蚂蚁灵波的开源攻势始于空间感知模型LingBot-Depth的发布。该模型针对机器人三维视觉精度与可靠性进行优化,在国际基准测试中表现优异,为智能终端提供了更精准的空间理解能力。次日发布的具身大模型LingBot-VLA则基于超过2万小时的真实机器人数据训练,覆盖9种主流双臂机器人构型,通过少量演示数据即可实现高质量任务迁移,显著降低了下游应用的适配成本。这两款模型的开源,为具身智能的落地应用奠定了坚实基础。
真正引发行业关注的是第三日发布的世界模型LingBot-World。该模型能够为具身智能、自动驾驶及游戏开发提供高保真虚拟环境,其视频生成质量、动态程度和长时一致性等指标可媲美谷歌同期发布的Genie 3模型。更引人注目的是,LingBot-World成功解决了视频生成中的“长时漂移”难题,支持近10分钟的连续稳定生成,并将交互延迟控制在1秒以内,用户可通过文本或操作实时改变环境。这一突破为AI智能体的训练提供了更高效、更经济的解决方案。
蚂蚁灵波的开源攻势并未止步。第四日发布的具身世界模型LingBot-VA提出了自回归视频-动作世界建模框架,将视频生成与机器人控制深度融合。该模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人类一样“边推演、边行动”。这一创新为“世界模型赋能具身操作”开辟了新路径,与前几日发布的模型形成完整技术闭环。
蚂蚁灵波的开源策略得到了国际媒体的广泛认可。德国财经媒体AdHocNews评论称,LingBot-World为开发者提供了一个高品质、可实时控制的平台,其性能与谷歌领先模型相当,但完全面向开发者开放。该媒体指出,这一举措将极大加速实时智能体的发展,使机器人能够在模拟环境中成千上万次地演练复杂场景,既安全又经济。法国科技媒体PauseHardware也认为,若LingBot-World在长时序一致性和控制能力上得到验证,将推动具身智能领域迈向新阶段。
面对蚂蚁灵波的开源攻势,谷歌迅速作出反应。在蚂蚁灵波宣布世界模型开源后不到24小时,谷歌DeepMind宣布面向美国地区18岁以上的Google AI Ultra订阅用户开放其世界模型研究原型“Project Genie”的体验。该原型基于Genie 3模型构建,允许用户通过文本提示或上传图像创建、探索和混合生成交互式世界,聚焦“世界草图绘制”“世界探索”和“世界混创”三大功能。然而,谷歌也坦承该原型尚处于早期阶段,存在生成效果不够逼真、操作延迟较高、单次生成时长限制为60秒等局限。
蚂蚁灵波与谷歌的不同策略反映了两者在生态构建上的差异。蚂蚁灵波通过彻底开源,快速吸引开发者构建应用生态,旨在具身智能等新兴领域确立事实标准,并反哺技术迭代。而谷歌则采取更为谨慎的“可控开放”策略,通过订阅制面向高端用户开放体验入口,旨在收集用户反馈并控制风险,同时保持其核心技术控制力。AI技术评测网站Gaga.art直接对比指出,LingBot-World在质量上与Google Genie 3相当,但完全面向开发者开放,这一差异或将影响未来AI生态的格局。
此次蚂蚁灵波在核心模型上的开源举措,被行业专家视为打破技术壁垒的重要一步。此前,这类高质量训练环境通常是专有的,成本高昂,限制了中小开发者的参与。如今,随着蚂蚁灵波的开源,每位开发者都能接触到工业标准技术,这将极大促进具身智能等领域的创新与发展。正如AdHocNews援引行业专家观点称,蚂蚁集团的举措正在重塑全球机器人领域的竞争格局,中国科技企业正逐步从技术追随者转变为规则制定者。













