时事快闻

李飞飞新文解析：视频生成、机器人与NVIDIA的“世界模型”之争与分类新解

时间：2026-06-04 15:30 来源：快讯作者：DeepTech深科技

在人工智能领域，“世界模型”已成为近期最受关注且争议不断的话题。自Sora被OpenAI定义为世界模拟器以来，各类技术纷纷冠以此名：从Genie的交互式画面生成，到机器人公司的研发方向，再到NVIDIA的Omniverse基础设施，甚至游戏引擎也被纳入这一概念框架。尽管术语统一，不同团队对“世界模型”的理解却大相径庭，导致行业交流中存在显著隔阂。

斯坦福大学教授李飞飞近日在个人专栏中提出一套功能分类法，试图厘清这一混乱局面。她以强化学习领域经典的“部分可观测马尔可夫决策过程”（POMDP）闭环为理论基础，指出当前被称作“世界模型”的技术实为该闭环的三种投影：渲染器输出视觉观测（像素），模拟器输出物理状态（几何与动力学表征），规划器输出智能体动作。这一分类标准基于输出内容与闭环环节的对应关系，为技术评估提供了清晰框架。

三类模型中，渲染器的商业化进程最为领先。以文本生成视频技术为代表的产品已覆盖消费级与企业市场，例如Google的Nano Banana模型用户规模可能达数亿。然而，这类模型的核心目标是视觉逼真度，而非物理准确性——其生成的华丽画面可能存在结构缺陷，无法直接用于建筑设计或机器人训练。相比之下，规划器虽被视为最具潜力的方向，但目前仍处于实验室阶段，真实场景部署面临复杂度、多样性与持续性的三重挑战。

模拟器则被李飞飞定义为连接两者的关键枢纽。该技术需在几何、物理与动力学层面构建世界的基础表征：向上可投射为人类可感知的视觉画面，向下可推导出智能体动作的物理后果。例如，NVIDIA的Omniverse平台已应用于工厂、仓库与数字孪生领域，其目标市场规模据估算超过万亿美元。但模拟器发展面临数据稀缺、计算成本高昂等瓶颈，尤其是同时模拟刚体、流体与布料等多物理交互的场景，其资源消耗仍远高于单一领域模拟。

当前行业最显著的趋势是三类模型的边界逐渐模糊。部分机器人实验室已证明，预训练视频渲染器可同时支持世界预测与动作预测，在单一架构内实现渲染与规划的融合。李飞飞团队开发的Marble模型则进一步突破，通过多模态输入生成可探索的3D环境，并同步输出高斯泼溅（用于视觉渲染）与碰撞网格（用于物理模拟），尝试统一渲染器与模拟器的功能。这种技术融合的逻辑终点，是一个能根据需求切换输出模态的基础模型——既可生成照片级画面，也能模拟物理交互，甚至规划动作序列。

尽管前景广阔，统一模型的实现仍面临多重挑战：渲染器依赖的互联网视频数据与模拟器所需的3D标注数据存在数量级差异；视觉优化目标与机器人精度需求可能产生冲突；单一架构内调和不同模态的张力仍是核心开放问题。但可以确定的是，渲染、模拟与规划三条技术路径的交汇，正在重新定义机器智能与物理世界的关系——这或许正是空间智能发展的终极方向。

更多>同类天脉资讯