小米公司近日在人工智能领域再获突破性进展,其技术团队成功研发出全球首个一步式潜空间语言视觉推理框架——Xiaomi OneVL。该框架创新性地将视觉语言动作(VLA)、世界模型构建与潜空间推理三大核心技术路线整合为统一体系,标志着多模态智能系统架构设计迈入全新阶段。
据小米官方披露,这项技术成果建立在今年3月发布的XLA认知大模型架构基础之上,通过潜空间推理技术实现了跨模态信息的深度融合。在自动驾驶、机器人控制等复杂场景中,该框架展现出显著优势,其推理效率较传统方法提升40%以上,规划决策准确率达到行业领先水平。特别在处理动态环境感知与实时决策任务时,系统能同时处理视觉、语言及动作指令的交互关系。
小米董事长雷军通过社交平台宣布,Xiaomi OneVL的全部模型权重、训练数据及推理代码将向全球开发者开源。他特别强调:"我们期待与全球科研机构共建开放生态,共同探索多模态智能在自动驾驶、工业自动化等领域的创新应用。"目前,该框架已在GitHub平台建立专属代码仓库,配套提供完整的训练文档与开发工具包。
行业分析指出,Xiaomi OneVL的开源策略将加速多模态智能技术的普及进程。其独特的架构设计为解决自动驾驶领域的"长尾问题"提供了新思路,特别是在复杂路况下的决策可靠性方面具有突破性意义。多家自动驾驶企业已表示将基于该框架开展联合研发,预计年内将推出首批应用案例。













