人形机器人迈向智能:数据荒漠待突破,高质量数据成关键之钥

   时间:2026-04-20 02:45 来源:快讯作者:第一财经

在北京亦庄举办的机器人马拉松赛事中,300余台机器人以自主导航或人类遥控的方式完成了比赛。这场活动不仅展现了机器人运动能力的显著提升,也暴露出当前技术发展的核心瓶颈——数据匮乏。尽管机器人已开始在工厂流水线、舞台表演等场景中应用,但其智能化水平仍远未达到预期,高质量数据的稀缺成为制约行业突破的关键因素。

觅蜂科技董事长姚卯青指出,具身智能的突破依赖于数据量的积累与结构的优化。他比喻称:“当前机器人行业正陷入数据荒漠,而智能涌现的时刻必然与数据规模和组成密切相关。”以人形机器人为例,其虽能完成半程马拉松或工厂上下料等任务,但动作仍显笨拙,距离真正智能还有巨大差距。相比之下,大语言模型如ChatGPT已通过海量文本数据实现了智能跃迁,而机器人所需的三维空间数据获取难度呈指数级增长。

数据获取成本与复杂度的差异在训练需求上体现得尤为明显。姚卯青透露,领先大语言模型如GPT-5使用了100万亿token的训练语料,而机器人需要的是真实世界中的三维交互数据。例如,机器人学习搬运物品需通过实际操作获取反馈,这类数据的采集成本高昂,且需经过标注、清洗等复杂流程才能使用。极佳视界联合创始人朱政坦言,公司训练模型使用的数十万小时数据中,大部分来自实验室环境,缺乏家庭、工业等真实场景的泛化能力。

数据质量参差不齐进一步加剧了行业困境。朱政举例称,多模态模型训练中,图片标注可能包含数千字描述,而视频数据标注却往往过于简略,导致模型难以理解复杂任务。姚卯青补充道,市场上充斥着标注不规范、传感器同步错误等低质数据,甚至出现“垃圾数据进,垃圾模型出”的现象。这种状况使得企业难以判断模型效果不佳是源于算法缺陷还是数据问题,严重阻碍了技术迭代。

评价体系缺失是数据利用效率低下的另一原因。谢晨指出,行业缺乏开放、真实的具身模型评估标准,导致企业难以确定数据采集方向。他以特斯拉FSD为例,强调具身智能需要10亿个“数据生成器”来模拟人类与物体的交互,这需动员真机、仿真和人类三大核心资源。极佳视界的实践印证了这一挑战:其每年在GPU算力上投入数千万人民币,若数据规模扩大千倍,成本将远超承受能力。

面对数据困境,企业正通过技术优化与生态协作寻求突破。朱政表示,极佳视界在扩增数据的同时,正致力于改进模型架构以提升效率。姚卯青则呼吁行业建立统一数据标准,打破企业间的数据孤岛,降低协作成本。在这场探寻高质量数据的“马拉松”中,机器人行业既需要特斯拉式的规模化实践,也需构建开放共享的生态体系,方能推动具身智能从实验室走向真实世界。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报 鲁公网安备37010202700497号