英伟达Fast-ThinkAct:让机器人“心算”决策,速度飙升还更精准!

   时间:2026-01-22 19:46 来源:快讯作者:成熟的我

在咖啡店忙碌的场景中,咖啡师能高效处理复杂订单,无需逐字念出制作流程,这种内化的思考方式让工作得以流畅进行。如今,英伟达的研究人员正将这种高效思维模式引入机器人领域。他们发布的Fast-ThinkAct研究,为机器人大脑带来了一次关键升级,使其在处理复杂任务时既快速又精准。

过去几年,视觉-语言-动作模型(VLA)是人工智能领域的热门方向。这类模型为机器人赋予了“超级大脑”,使其能接收口头指令,观察环境并规划动作完成任务。然而,最新研究发现,让机器人在行动前先进行类似人类打草稿的推理,能显著提升其完成复杂任务的能力。这种链式思维(CoT)方法,让机器人像写作文一样逐步推导,但问题也随之而来。

一个会思考的机器人在做决定前,可能需要生成约250个词元的推理文字。在真实场景中,这种延迟是难以接受的。以工厂里的机器人手臂为例,它每秒需做出1到15次决策,若每次决策都要几秒思考,生产线将严重受阻。在辅助手术或紧急救援等对时间敏感的场景中,延迟更可能带来安全隐患。

为解决这一问题,Fast-ThinkAct研究团队提出创新方案:让机器人学会“心算”,将冗长的推理过程压缩成几个紧凑的“念头”,即“可言语化的潜在推理”,然后直接据此行动。实验表明,Fast-ThinkAct将机器人的推理时间缩短了高达89.3%,同时任务表现不仅未下降,反而有所提升。

Fast-ThinkAct的工作原理可通过“老师-学生”故事来理解。研究团队先训练一个教师模型,它面对机器人看到的场景和收到的指令,会生成完整的文字推理过程。例如,看到草莓在桌子右边、抽屉在左前方时,教师模型会详细规划机械臂的移动步骤。该模型采用GRPO强化学习方法训练,确保推理既合逻辑又能指导任务完成。教师生成的推理质量参差不齐,这却成为训练学生模型的关键素材。

学生模型的任务是将教师的长篇推理浓缩成几个连续的潜在词元。当教师需生成约250个文字词元时,学生只需生成6个潜在词元。为确保压缩后的推理质量,研究团队引入言语化器,它是一个小型语言模型,能将学生模型的抽象“精华”翻译回人类可读文字,以便研究人员检查其是否学到教师推理的精髓。

训练过程采用偏好学习策略,灵感来自DPO技术。研究团队从教师模型生成的众多推理版本中,挑出质量最高和最低的配对,让学生模型学习生成能被言语化器解码为高质量推理的精华。这就像训练调酒师,让其通过品尝好酒和差酒的区别,真正理解好酒的味道。

除压缩思考能力,机器人还需理解空间关系以完成实际任务。Fast-ThinkAct的第二个创新是视觉规划的蒸馏。研究团队引入动作对齐的视觉规划蒸馏方法,教师模型在训练中不仅学会语言推理,还学会用轨迹级奖励指导自己,关注机器人手臂移动路径的合理性。通过对齐教师和学生在关键位置的内部表征,确保学生模型虽说话简短,但对空间的理解不打折扣。

为提升效率,研究团队还设计空间词元机制。传统教师模型预测机器人手臂运动轨迹时,需逐个生成途经点坐标,描述5个路径点可能要生成60到70个词元。而学生模型使用5个专门的可学习空间词元,每个空间词元输出通过简单网络层投影到路径点坐标,大大提升了预测的并行性和速度。

有了压缩推理和空间理解能力,最后一步是将这些智慧转化为实际动作。Fast-ThinkAct框架的第三个核心组件是推理增强的策略学习。动作模型采用扩散Transformer架构,通过键值缓存提取学生模型处理空间词元时产生的中间状态,作为视觉规划上下文传递给动作模型。动作模型的注意力机制同时关注视觉规划上下文和直接感知观察,做出符合高级规划又适应当前情况的动作决策。训练动作模型时,学生模型和视觉编码器参数冻结,确保推理能力不被遗忘,动作模型专注于执行力提升。

实验验证了Fast-ThinkAct的出色效果。与当时最先进的推理VLA模型ThinkAct-7B相比,Fast-ThinkAct推理延迟减少89.3%,每次决策时间从约7513毫秒降至约805毫秒,与同等规模的ThinkAct-3B相比也快了约7倍。在性能方面,Fast-ThinkAct在LIBERO基准测试中平均成功率达89.7%,超过所有对比方法;在SimplerEnv-Google测试中成功率达68.7%,略高于ThinkAct-7B;在更具挑战性的RoboTwin2.0基准上,简单模式平均成功率65.7%,困难模式26.4%,均超过基线方法,长程任务中表现尤为突出。

Fast-ThinkAct还展现出故障恢复、小样本适应和长程规划等特别能力。在RoboFAC基准上,它识别故障并提供恢复指导的能力出色,模拟环境得分91.1%,真实机器人环境得分78.9%,分别比第二名高出10.9分和16.4分。例如,机器人抓勺子抓空时,它能分析视频并给出准确恢复建议。在RoboTwin2.0小样本测试中,它在中等复杂度任务上成功率56.5%,长程任务上16.8%,显著高于其他方法。对于长程规划任务,其生成的视觉轨迹预测能准确描绘完成路径,内部推理表征为动作执行提供有效指导。

研究团队设计的言语化器让我们能了解机器人的“内心世界”。对比教师模型原始推理和学生模型言语化推理输出发现,学生模型推理更精炼且准确。例如在拿起玻璃杯任务中,学生模型推理更简洁地表明任务成功完成;在判断房间是否在一楼的例子中,学生模型注意到关键视觉线索给出正确答案,而教师模型推理冗长却给出错误答案。

消融实验验证了框架各组件的贡献。移除言语化损失后,模型在EgoPlan-Bench2和RoboVQA上得分下降;进一步移除蒸馏损失,性能继续下降。完整Fast-ThinkAct比教师模型更快且性能更好,6个潜在词元达到最佳平衡。不过,研究也存在局限性,言语化器基于预训练语言模型构建,可能产生幻觉,但主要影响解释性,对动作执行影响不大。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报