国家地方共建人形机器人创新中心与上海纬钛科技有限公司近日联合宣布,全球首个大规模跨本体视触觉多模态数据集“白虎-VTouch”正式发布。该数据集突破了具身智能领域长期存在的三大瓶颈:真实物理交互数据稀缺、高保真触觉信息不足以及跨机器人本体泛化能力弱,为机器人从“视觉感知”向“触觉操控”升级提供了关键支撑。
数据集规模达6万分钟以上,首批6000分钟开源数据已在OpenLoong社区上线。其内容涵盖视触觉传感器数据、RGB-D深度信息及关节位姿数据,支持轮臂机器人、双足机器人和手持智能终端等多类本体构型。通过系统采集家居家政、工业制造、餐饮服务等4大场景的380余种任务类型,数据集构建了“矩阵式”任务范式,实现数据规模化生成与能力结构化覆盖的统一闭环。这种设计使机器人策略模型在精细触觉感知、闭环力控交互等核心能力上获得系统性提升,而非依赖零散任务堆砌。
技术实现层面,研发团队搭建了跨本体规模化数采平台,具备六大创新特性:多进程架构支持每秒100MB以上实时采集,可同步处理视觉、触觉、力觉等10余种传感器数据;双时间戳设计确保多模态数据时序精准对齐;分布式处理架构显著降低系统成本,同时通过队列缓冲与进程监控机制保障高可靠性。平台配套的Web控制面板支持实时监控与一键录制,极大提升了操作便捷性。
数据标注体系采用跨层次交互理解框架,分为抽象思维层、动作逻辑层和物理状态层。抽象思维层通过任务意图推演构建通用化思维链;动作逻辑层将复杂操作拆解为100余种原子动作序列;物理状态层则利用视触觉数据深化机器人对自身状态的感知。这种多模态语义联合建模方式,为下一代具身VTLA(视觉-语言-动作)模型提供了数据标准基础。
在算法支持方面,团队开发了统一训-推算法框架,兼容多种数据格式与控制方式,支持主流策略模型的统一训练与快速切换。经扩散策略与模仿学习算法验证,该框架使任务完成率提升显著,跨模型泛化能力增强。数据集中视触觉接触图像达9072万对,覆盖260余种接触密集型任务,其中68%的任务通过触觉感知获得了更完整的接触状态描述,为精细操作、力控调整等关键环节提供直接增益。
作为全国首个具身智能领域国家级标准化试点“上海虚实融合具身智能训练场”的核心组成部分,白虎-VTouch数据集将推动机器人从实验室走向真实复杂场景。研发团队表示,后续将持续开放数据集使用说明及相关研究成果,联合生态伙伴构建从数据到决策的完整技术链条,加速具身智能生态体系建设。












