在具身智能领域,让双足人形机器人像人类一样完成装箱、搬运、推车等移动操作任务,始终是科研人员努力的方向。近期,由香港大学、智元AGIBOT、复旦大学以及上海创智学院组成的联合研究团队,取得了一项重要成果——提出WholeBodyVLA框架,为双足人形机器人的自主全身控制开辟了新路径。
该研究基于智元灵犀X2展开,将视觉语言动作模型(VLA)拓展至双足人形机器人的全身控制范畴,并成功验证了其在全身移动操作任务中的可行性。与原地操作不同,移动操作面临更为复杂的挑战。其难点并非掌握单一技能,而是要求行走与操作在同一任务中长时间、稳定地协同进行。
围绕这一难题,WholeBodyVLA框架总结出制约移动操作发展的两大核心问题:真机数据稀缺以及运动执行过程中的不稳定性。在人形机器人执行移动操作任务时,数据采集的难度和成本远高于原地操作。通常需要多名数采员同时协作,通过遥操让机器人上半身进行操作、下半身完成行走。这一过程往往借助混合方案实现,比如用VR控制上半身、遥控器控制下半身,但这种方式操作流程繁琐、效率低下;若采用全身动捕系统,又会面临高昂的价格。
同时,移动操作对运动精准性和稳定性的要求极高。与单纯的操作相比,任何细微的偏差都可能使目标操作物体脱离相机视野和工作空间。即便VLA输出了正确的运动指令,下半身控制器仍可能出现执行失误,例如走歪、踉跄等情况。
为攻克这些难题,研究团队在WholeBodyVLA框架中引入了两项关键创新。一方面,从人类视频中学习移动与操作的潜在动作。该框架通过第一视角的人类视频学习相关动作,其中操作相关的潜在动作基于AgiBot World数据集进行建模。另一方面,设计了面向移动操作的强化学习(RL)控制器。将通用连续运动控制目标简化为一组离散运动指令,仅保留移动操作必要的强化学习训练目标,从而大幅提升控制器在运动执行时的稳定性。
研究团队在智元灵犀X2人形机器人上开展了大量真机实验。实验结果表明,WholeBodyVLA框架使机器人具备了大范围、长程移动操作任务的能力,在距离、操作和地形等方面都展现出良好的泛化性。













