在具身智能领域,技术迭代的方向与节奏正经历着微妙变化,行业内部对于未来的发展路径也产生了诸多分歧。近期,北大副教授董豪提出了一种全新的观点,为具身智能的发展提供了新的思路。他认为,当前主流的模仿学习、强化学习以及仿真数据方法均存在一定局限性,行业亟需转变思维方式,探索更为高效的发展路径。
董豪指出,具身模型的训练目前主要分为两个阶段:预训练阶段依赖模仿学习,而后置迭代则依靠强化学习。然而,这两种方法都存在显著短板。模仿学习虽然能够快速赋予机器人基础操作能力,但其训练样本全部为正确轨迹,缺乏故障和失误样本,导致机器人在真实场景中执行任务出错时无法自主调整和纠错。而强化学习则能够弥补这一容错短板,通过补充故障场景样本和人工干预纠错轨迹,提升机器人在真机环境中的任务稳定性。
为了验证这一观点,董豪分享了实验室的最新成果。他们成功实现了机器人全自主洗衣流程,从规划移动路径、开合洗衣机门到抓取衣物,整个流程无需人工介入。即使在抓取衣物失败时,机器人也能像人类一样主动重试。这一成果充分证明了模仿学习打底、强化学习持续迭代的组合方案的有效性。
然而,董豪认为,即便实现了模仿与强化学习的闭环,传统的一维缩放逻辑仍然无法描绘通用具身智能的长期增长潜力。为此,他提出了横向二维缩放定律的创新观点,即在原有数据量维度之外,新增任务数量坐标轴。这一框架下,随着数据集的持续扩充,机器人全新任务的初始完成率将同步上涨,而达成高成功率所需的样本量则会持续下降。
董豪强调,行业需要规避两种低效增长曲线:一是数据增长与可掌握任务仅呈线性关系;二是边际收益持续递减。理想的技术曲线应该是“高效红线”,即伴随模型迭代和数据规模扩张,机器人可掌握的任务数量高速提升,实现“越学越省”。这一观点得到了近半年行业火热的世界模型、Umi等技术概念的支持,它们底层目标全部服务于这条全新增长曲线。
为了实现这一目标,董豪团队还探索了多路径数据增强的落地方法。他们依托世界模型与生成AI,将单条真机采集轨迹生成50条物体摆放、空间位置差异化的高逼真等效训练数据,极大缓解了真机数据采集成本高、样本稀缺的问题。同时,仿真体系在基础动作训练之外,还成为家用机器人突破非标家电操作瓶颈的关键。通过仿真批量生成海量训练素材,与真机数据双向互补,持续拓宽机器人能力边界。
董豪团队还探索了普惠化低成本方案,通过穿戴式手持相机记录人类操作视频,直接转化为机器人可训练轨迹。这一方案在同等预算下可获取海量示范数据,持续优化二维缩放增长曲线,长期压低机器人数据采集边际成本。这些前沿技术的探索与实践,为具身智能的发展提供了新的方向和动力。












