李飞飞新文解析:视频生成、机器人与NVIDIA的“世界模型”之争与分类新解

   时间:2026-06-04 15:30 来源:快讯作者:DeepTech深科技

在人工智能领域,“世界模型”已成为近期最受关注且争议不断的话题。自Sora被OpenAI定义为世界模拟器以来,各类技术纷纷冠以此名:从Genie的交互式画面生成,到机器人公司的研发方向,再到NVIDIA的Omniverse基础设施,甚至游戏引擎也被纳入这一概念框架。尽管术语统一,不同团队对“世界模型”的理解却大相径庭,导致行业交流中存在显著隔阂。

斯坦福大学教授李飞飞近日在个人专栏中提出一套功能分类法,试图厘清这一混乱局面。她以强化学习领域经典的“部分可观测马尔可夫决策过程”(POMDP)闭环为理论基础,指出当前被称作“世界模型”的技术实为该闭环的三种投影:渲染器输出视觉观测(像素),模拟器输出物理状态(几何与动力学表征),规划器输出智能体动作。这一分类标准基于输出内容与闭环环节的对应关系,为技术评估提供了清晰框架。

三类模型中,渲染器的商业化进程最为领先。以文本生成视频技术为代表的产品已覆盖消费级与企业市场,例如Google的Nano Banana模型用户规模可能达数亿。然而,这类模型的核心目标是视觉逼真度,而非物理准确性——其生成的华丽画面可能存在结构缺陷,无法直接用于建筑设计或机器人训练。相比之下,规划器虽被视为最具潜力的方向,但目前仍处于实验室阶段,真实场景部署面临复杂度、多样性与持续性的三重挑战。

模拟器则被李飞飞定义为连接两者的关键枢纽。该技术需在几何、物理与动力学层面构建世界的基础表征:向上可投射为人类可感知的视觉画面,向下可推导出智能体动作的物理后果。例如,NVIDIA的Omniverse平台已应用于工厂、仓库与数字孪生领域,其目标市场规模据估算超过万亿美元。但模拟器发展面临数据稀缺、计算成本高昂等瓶颈,尤其是同时模拟刚体、流体与布料等多物理交互的场景,其资源消耗仍远高于单一领域模拟。

当前行业最显著的趋势是三类模型的边界逐渐模糊。部分机器人实验室已证明,预训练视频渲染器可同时支持世界预测与动作预测,在单一架构内实现渲染与规划的融合。李飞飞团队开发的Marble模型则进一步突破,通过多模态输入生成可探索的3D环境,并同步输出高斯泼溅(用于视觉渲染)与碰撞网格(用于物理模拟),尝试统一渲染器与模拟器的功能。这种技术融合的逻辑终点,是一个能根据需求切换输出模态的基础模型——既可生成照片级画面,也能模拟物理交互,甚至规划动作序列。

尽管前景广阔,统一模型的实现仍面临多重挑战:渲染器依赖的互联网视频数据与模拟器所需的3D标注数据存在数量级差异;视觉优化目标与机器人精度需求可能产生冲突;单一架构内调和不同模态的张力仍是核心开放问题。但可以确定的是,渲染、模拟与规划三条技术路径的交汇,正在重新定义机器智能与物理世界的关系——这或许正是空间智能发展的终极方向。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报 鲁公网安备37010202700497号