在机器人技术与基础模型结合的崭新领域中,物理AI正迅速崛起。近期,英伟达、谷歌及meta等科技巨头纷纷发布研究成果,探索将大语言模型与机器人技术深度融合,开启智能机器人的新篇章。
艾伦人工智能研究所(Ai2)最新推出的MolmoAct 7B模型,成为物理AI领域的一股强劲力量。该开源模型不仅让机器人具备“在空间中推理”的能力,更旨在挑战行业内的领先者。MolmoAct基于Ai2的Molmo项目构建,能够实现三维“思考”,并同步发布了其训练数据。Apache 2.0许可证用于模型本身,而数据集则采用CC BY-4.0许可证。
MolmoAct被Ai2定义为动作推理模型,能够在物理三维空间中对动作进行精准推理。这意味着,MolmoAct能运用其推理能力,深入理解物理世界,规划空间占用,并执行相应动作,展现了前所未有的智能水平。
与传统视觉-语言-动作(VLA)模型相比,MolmoAct的独特优势在于其三维空间推理能力。多数机器人模型仍局限于VLA框架,无法在空间中思考或推理。然而,MolmoAct不仅具备这一能力,更在架构上展现出高效性和强大的泛化能力。Ai2表示,MolmoAct的推出,将极大提升机器人在物理环境中的感知与交互决策能力。
MolmoAct通过输出“空间定位感知Token”来洞察物理世界。这些Token由向量量化变分自编码器预训练提取,能够将视频等数据输入转化为Token。与VLA模型使用的文本输入Token不同,MolmoAct的Token专注于空间理解,能够编码几何结构,估算物体间的距离。在此基础上,MolmoAct预测“图像空间”路径点,并输出具体动作指令,如机械臂的升降或伸展等。
Ai2的研究人员指出,MolmoAct能够轻松适应不同的机器人实现形式,如机械臂或人形机器人,仅需最少的微调。在基准测试中,MolmoAct 7B展现出卓越性能,任务成功率高达72.1%,超越了谷歌、微软和英伟达的同类模型。
俄勒冈州立大学工程学院教授Alan Fern对Ai2的研究给予了高度评价,认为这代表了视觉语言模型在机器人技术和物理推理方面的自然进展。尽管目前仍处于演示阶段,但物理AI的兴趣正日益浓厚,通用物理智能的目标正逐步变为现实。这将极大地简化机器人的编程过程,消除为特定动作单独编程的需要。
初创公司Gather AI的联合创始人Daniel Maturana也对MolmoAct数据的开放性表示赞赏。他认为,这一举措为其他学术实验室乃至专业爱好者提供了坚实的基础,有助于降低开发和训练成本。
随着大语言模型的兴起,创造更智能、更具空间感知能力的机器人已成为众多开发者和计算机科学家的共同梦想。谷歌的SayCan、meta与纽约大学的OK-Robot等项目,以及Hugging Face发布的桌面机器人,都在加速这一进程。英伟达更是宣称物理AI为下一个重大趋势,并发布了多个模型以加速机器人训练。
Q&A环节
Q1:MolmoAct与传统机器人模型有何不同?
A:MolmoAct具备三维空间推理能力,而传统VLA模型无法在空间中进行思考或推理。MolmoAct能更高效地理解物理世界、规划空间并执行动作。
Q2:MolmoAct的技术原理是什么?
A:MolmoAct通过输出空间定位感知Token来理解物理世界。这些Token使用向量量化变分自编码器预训练提取,使模型能够获取空间理解能力并编码几何结构,进而预测路径点并输出动作指令。
Q3:MolmoAct的性能表现如何?
A:基准测试显示,MolmoAct 7B的任务成功率高达72.1%,超越了谷歌、微软和英伟达的模型。同时,该模型能轻松适应不同的机器人实现形式,仅需少量微调。