近日,一款名为LingBot-World的通用世界模型正式开源,引发科技圈广泛关注。这款由蚂蚁灵波团队开发的模型,不仅在视觉效果上可与DeepMind的Genie 3媲美,更在时间维度和交互性上实现突破,支持长达10分钟的持续生成与实时交互。
用户可通过键盘(WASD)和鼠标控制视角移动,如同操作3A游戏般自由探索虚拟世界。更令人惊叹的是,模型支持自然语言指令实时修改场景——输入"前面放个烟花"或"变成冰雪世界",系统会从初始图像出发,按要求动态生成连贯画面。这种"言出法随"的交互方式,让虚拟世界真正"活"了起来。
在技术实现上,LingBot-World展现出三大核心优势。首先是跨时长的一致性表现,无论是科幻场景中的光圈特效,还是复杂环境下的物体运动,都能保持高度连贯。其次具备长期记忆能力,即使镜头短暂移开,系统仍能准确推断离屏物体的行为轨迹。更关键的是,模型严格遵循物理规律,当虚拟猫咪撞到沙发时,会自然产生碰撞反应而非穿模而过。
该模型的成功源于独特的技术路径。数据层面,团队构建了混合数据引擎:一方面收集海量真实世界视频,另一方面利用虚幻引擎生成带物理碰撞信息的合成数据。通过分层标注策略,将视频描述拆解为叙事、静态场景和密集时序三个层级,帮助模型更好理解环境与运动的解耦关系。
模型训练采用三阶段进化策略:预训练阶段聚焦通用视频生成能力,中训练阶段通过混合专家架构注入物理规律和交互逻辑,后训练阶段引入因果注意力机制将推理延迟压缩至1秒以内。这种渐进式优化,使模型在长时序生成、空间记忆和实时响应等关键指标上超越同类产品。
值得注意的是,LingBot-World选择完全开源的策略,与Genie 3形成鲜明对比。这一决定获得开发者社区热烈响应,被认为"为具身智能研究提供了关键基础设施"。配套发布的还有LingBot-Depth掩码深度建模和LingBot-VLA视觉语言动作模型,三者共同构成完整的感知-决策-模拟技术栈。
这套组合方案展现出强大的协同效应:LingBot-VLA可在虚拟环境中进行千万次推演,以极低成本学习物理规律;LingBot-World生成的高一致性视频可转化为3D点云数据,反哺LingBot-Depth的深度感知能力;真实世界反馈又能持续优化模拟环境的物理准确性。这种闭环设计,为机器人训练提供了高效低成本的解决方案。
目前,项目已公开技术论文和完整代码库,并提供在线演示和模型权重下载。开发者可通过GitHub和项目主页获取详细文档,体验这个能"理解"物理规律、"记住"场景变化的虚拟世界引擎。随着社区参与度的提升,这项技术有望在机器人训练、游戏开发、自动驾驶等领域催生更多创新应用。












