自变量机器人公司近日宣布,将于35天后正式推出搭载新一代具身智能基础模型WALL-B的家用机器人,首批产品将入驻真实家庭环境,开启服务人类日常生活的全新篇章。这一突破标志着机器人技术从实验室走向真实场景的关键一步,也预示着具身智能领域即将迎来重大变革。
公司创始人兼CEO王潜指出,家庭场景是检验机器人智能水平的终极考场。他描述了一个典型场景:清晨七点,用户从床上起身,客厅里拖鞋散落、厨房碗碟未洗、孩子书包扔在地上、宠物打翻了水杯。这种充满随机性和碎片化的环境,对现有机器人技术构成了巨大挑战。目前全球尚无任何机器人能在无人工干预的情况下,独立完成此类综合整理任务。
传统机器人技术主要依赖预设指令或遥控操作,即便在工业领域已广泛应用的自动化设备,也仅能在高度标准化的环境中重复执行固定动作。王潜强调,家庭环境的复杂性远超工厂车间——同一动作可能只执行一次,且每次执行的环境条件都截然不同。这种差异使得机器人进入家庭被视为"当代最难的技术问题之一"。
自变量机器人自成立之初就专注于构建机器人的"大脑"系统。2024年底,公司发布了基于VLA(视觉-语言-动作)架构的首代具身基础模型WALL-A,并于2025年9月开源了轻量化版本WALL-OSS。通过与58同城的合作,搭载WALL-AS模型的机器人已进入真实家庭,与保洁人员协同作业,实现了全球首次C端复杂环境下的机器人服务落地。
然而,真实场景的部署暴露了VLA架构的固有局限。联合创始人兼CTO王昊解释称,VLA本质上是将视觉、语言、动作三个独立模块进行拼接,数据在模块间传递时会产生信息损耗和延迟。更关键的是,这种架构只能模仿训练数据中的轨迹,无法真正理解物理世界的运行规律。"它不知道杯子为什么会掉落,也不明白悬在桌边的盘子需要推回去,只是在重复见过的东西。"
为突破这些限制,自变量团队开发了全新的世界统一模型(WUM)架构。王昊将其类比于苹果M1芯片的统一内存设计——通过消除模块边界,让所有处理单元共享同一网络,从根本上解决数据搬运带来的性能瓶颈。WALL-B作为首款基于WUM架构的模型,实现了视觉、语言、动作和物理预测等能力的原生融合。
这项技术突破带来了三大核心优势:首先,WALL-B具备原生多模态处理能力,可同步处理视觉、听觉、语言、触觉和动作数据,实现"多模态进、多模态出"的直接响应;其次,模型建立了对物理世界的基本认知,能预测重力、惯性、摩擦力等规律,从而在陌生场景中做出合理判断;最重要的是,WALL-B形成了与世界交互的自我进化机制,能从任务失败中自动调整策略并更新模型参数,无需人工干预或重新训练。
数据策略是另一个关键创新点。王昊将传统实验室数据比喻为"糖水"——干净可控但缺乏真实世界的复杂性,而自变量选择的是"牛奶数据"路线。团队在数百个真实家庭中采集训练数据,这些环境包含自然光照变化、物品随意摆放、宠物和儿童活动等不可预测因素。这种数据采集方式虽然成本高昂,但能确保模型在真实场景中的鲁棒性。
针对用户关心的隐私问题,自变量设计了三重防护机制:视觉脱敏技术确保原始图像不离开设备;透明授权系统要求用户主动确认才能启动服务;用途限定原则保证数据绝不共享给第三方。王潜强调:"用户信任比技术承诺更珍贵,我们将用最严格的标准保护家庭隐私。"
即将入驻家庭的新一代机器人,不仅搭载了WALL-B模型,还针对家居环境进行了硬件优化。虽然王潜坦言当前模型仍处于"实习生"阶段,可能犯错或需要远程协助,但其具备24小时不间断工作能力,且能通过持续学习不断改进。自变量现已启动首批家庭用户招募计划,用户可通过官方渠道提交申请。
具身智能的发展正在重塑人机协作的边界。当机器人开始在真实家庭中学习进化,这场技术革命已跨越了从实验室到现实世界的最后一道门槛。正如王潜所说:"每个伟大的旅程都始于踉跄的第一步,现在机器人已经在最复杂的环境中开启了它的学习之旅。"












