在具身智能领域,一场围绕数据供给能力的竞争正悄然升级。尽管资本不断涌入,但行业普遍面临“能执行却不智能”的困境,其根源在于高质量训练数据的严重短缺。据统计,全球可用的具身数据总量仅约五十万小时,与大语言模型训练所需的语料规模相差万倍以上。这种差距催生了全新的数据基础设施市场,多家企业纷纷布局,试图在这片蓝海中占据先机。
四月十六日,智元机器人旗下的觅蜂科技宣布推出一站式物理AI数据服务平台,正式以“数据卖铲人”的角色切入市场。该公司CEO姚卯青在发布会上透露,国内真机数据采集的价格已飙升至每小时五百至一千元,需求端处于“有多少买多少”的紧缺状态。为缓解供给瓶颈,觅蜂科技推出了覆盖真机遥操作、无本体采集与仿真数据的全范式平台,并同步发布了MEgo系列采集硬件,包括专用夹爪和头戴式设备。按照规划,该企业将在年内实现千万小时级的数据产能,并计划到2030年将规模扩大至百亿小时。
针对外界对觅蜂科技独立性的质疑,姚卯青强调,尽管公司脱胎于智元机器人,但运营完全独立。智元机器人获取数据需通过市场渠道,与其他客户遵循相同的商业条款。这一安排旨在消除同行对数据命脉被垄断的顾虑,为行业合作创造公平环境。
大厂的入场进一步加速了数据基建的规模化进程。同日,京东展示了其具身智能数据体系,覆盖采集、存储、标注、训练、评测、仿真与测试全链条。依托遍布全国的仓储物流网络和多元线下场景,京东构建了真实环境下的数据护城河。戴盟机器人则发布了包含触觉信息的全模态数据集Daimon-Infinity,预计年内规模将达数百万小时,并率先在阿里魔搭开源一万小时数据。百度智能云也在月初联合多家企业推出了“具身智能数据超市”,进一步丰富了市场供给。
然而,数据质量仍是行业面临的核心挑战。布米普特拉北京投资基金管理有限公司的分析师指出,超过九成的采集数据因重复、噪声或缺乏物理反馈而难以直接使用。真正稀缺的并非原始数据量,而是高价值数据的精炼与闭环迭代能力。随着数据基础设施逐渐成为具身智能的底层命脉,谁能率先建立高质量数据供给体系并掌握生态主导权,谁就能在这场万亿赛道的竞争中脱颖而出。这场围绕数据定义权的竞逐,才刚刚拉开帷幕。













