特斯拉Optimus机器人训练新策略:告别动作捕捉,转向视频学习
特斯拉正在为其人形机器人Optimus探索一条全新的训练路径,摒弃了传统的动作捕捉服和远程操控方式,转而采用通过观看视频来学习新技能。这一创新举措标志着特斯拉在机器人研发领域的重大战略调整。
据内部人士透露,特斯拉在近期告知员工,Optimus项目将更多地依赖于“纯视觉”方法。此前,特斯拉曾利用动作捕捉服和虚拟现实头显来记录人类操作员的动作数据,并以此远程操控机器人。然而,现在公司将主要通过拍摄工人执行任务的视频来训练Optimus,例如教授它如何捡起物体或折叠衣物。
特斯拉方面表示,这一转变将显著提升数据收集的效率,使得团队能够更快地扩大数据集规模。这一策略与特斯拉首席执行官马斯克长期以来的信念相吻合,即人工智能仅通过摄像头就能掌握复杂的任务。特斯拉在自动驾驶软件的训练中一直采用类似的方法。
值得注意的是,这一变化发生在Optimus项目主管米兰·科瓦奇离职后不久。据透露,AI主管阿肖克·埃卢斯瓦米已经接管了该项目。动作捕捉和远程操控一直是机器人行业的标准做法,但特斯拉显然希望打破这一传统。
特斯拉的新策略要求工人佩戴由公司自制的五个摄像头,这些摄像头安装在头盔和背包上,能够全方位拍摄工人的动作,为AI模型提供精确的环境定位数据。通过这种方式,特斯拉希望能够采集到更细微的细节,如关节和手指的位置,从而更准确地定位和优化机器人的动作。
然而,一些专家对这一策略提出了质疑。人类与机器认知研究所的高级研究科学家罗伯特·格里芬认为,仅依赖视频数据很难让机器人将视频中的动作准确转化到现实世界中。他表示,大量的远程操控数据能够让机器人通过与环境的物理交互进行学习,而仅使用视频数据则缺乏这种直接的物理交互。
尽管如此,特斯拉似乎对这一新策略充满信心。马斯克在2021年首次宣布了Optimus项目的计划,并表示这款人形机器人最终将能够胜任工厂劳动和照护工作等任务。特斯拉已经开始招聘“数据采集操作员”,这些职位涉及执行和记录基本的家务任务,为Optimus的训练提供数据。
在新的训练方式下,工人们会收到具体的任务指令,特别是在手部动作方面,以确保动作看起来尽可能接近人类。一位员工透露,他们可能会花费数月时间反复执行同一个简单任务,以确保数据的准确性和完整性。
特斯拉的这一新策略与其训练自动驾驶软件的方式高度一致。其他自动驾驶公司通常使用激光雷达和毫米波雷达等传感器来训练软件,而特斯拉则主要依赖摄像头。特斯拉利用数百万辆配备摄像头的汽车收集数据,并通过这些数据不断优化其自动驾驶系统。
马斯克曾表示,特斯拉在中国推出辅助驾驶软件之前,曾使用公开的亚洲街道视频来训练AI系统。他承认,Optimus人形机器人的训练需求可能至少是汽车所需的10倍。这一庞大的数据量需求使得特斯拉必须采用创新的训练策略,以高效地收集和处理数据。