当人工智能在文本生成、图像创作和视频制作领域掀起变革浪潮时,科学家们却将目光投向了更深层的挑战——如何让AI真正理解物理世界的运行逻辑。美国三院院士李飞飞近日在社交媒体发布的万字长文《从语言到世界:空间智能是AI的下一个前沿》,在学术圈引发连锁反应。这位ImageNet数据库的缔造者直指当前AI的致命缺陷:大语言模型和图像分类器已触及发展天花板,唯有突破空间智能瓶颈,才能开启真正的智能时代。
社交平台上的"人工智障"现象暴露了现有技术的荒诞性。某用户上传的沙漠合影中,AI在添加骆驼时闹出大笑话——两只体型堪比猛犸象的骆驼站在孩童身后,还额外"赠送"了长颈鹿脖子的苍狐和兔子。OpenAI的文生视频模型Sora更是在2024年春节期间贡献了经典案例:其生成的蚂蚁视频中,这些六足生物竟集体"截肢"成四条腿。这种常识性错误让AI领域两位泰斗级人物罕见达成共识:杨立昆揶揄"蚂蚁确实有六条腿",而加里·马库斯则警告"今天搞错蚂蚁,明天就可能算错月球轨道"。升级后的Sora2虽然画面流畅度提升,但男子挥舞的棍子流苏时隐时现,再次印证了AI在物理逻辑上的根本缺陷。
西湖大学空间智能实验室负责人刘沛东指出,当前AI系统的核心困境在于缺乏对物理世界的常识性认知。这种缺陷导致无论文本还是多模态模型,生成内容都可能因缺失"内在锚点"而违背常理。他以"买咖啡"的指令为例,强调真正智能体需要具备自主拆解任务、规划路径并应对环境变化的能力。这种能力恰恰依赖于对三维空间的感知、推理与行动闭环,而这正是空间智能的核心要义。
空间智能概念源自教育心理学领域。上世纪八十年代,霍华德·加德纳在多元智能理论中将其定义为对空间信息的感知、理解与操作能力。这种人类与生俱来的本能,在文明进程中屡建奇功:埃拉托色尼通过日影测量地球周长,哈格里夫斯用空间构想革新纺织机械,沃森与克里克通过分子模型破解DNA结构。当科学家将这种能力迁移至AI领域时,发现其涉及三维思维、图形敏感性和空间想象等多个维度,是连接数字世界与物理世界的桥梁。
产业界已涌现出空间智能的初步应用:手机AR测量工具、VR眼镜、扫地机器人,甚至能握手互动的机器狗。但这些技术仍存在明显短板——扫地机器人常因环境杂乱导致传感器误判,自动驾驶系统在复杂路况下仍存在安全隐患。刘沛东分析称,理想的空间智能应构建"感知-推理-行动"的完整链条,当前技术虽在感知和执行层面取得进展,但缺乏理解物理规则、进行因果预测的内部模型。例如自动驾驶汽车能识别常规障碍物,却难以通过地上小球推断出即将冲出的孩童。
世界模型成为突破空间智能的关键路径。这种模仿人类大脑"内部世界"构建能力的工具,能让AI像人类一样整合感官信息,对物理世界进行直觉推理。2025年科技产业掀起世界模型研发热潮:英伟达在CES展上推出Cosmos模型,可生成"物理感知"视频;群核科技开源的SpatialLM模型登上HuggingFace趋势榜第二;谷歌DeepMind发布的Genie 3支持实时交互,为游戏开发和创意设计开辟新可能;李飞飞参与创立的World Lab更推出首款多模态产品Marble,用户可通过文本、照片或3D布局图生成可编辑的虚拟环境。
尽管前景广阔,世界模型仍面临多重挑战。真实世界的复杂性与不确定性远超现有数学模型的处理能力,地球内部构造等难以获取的数据限制着模型精度,暗物质等未解物理现象更造成实验数据缺口。这些难题提醒着科技界:打造真正理解物理世界的AI,既需要颠覆性的理论突破,也离不开跨学科的协同攻关。当芯片巨头、科研机构和初创公司纷纷押注这条新赛道时,人类距离"像人一样干活"的智能体,或许还有很长的路要走。











