小米公司近日在人工智能领域取得重要突破,其技术团队成功研发出名为Xiaomi OneVL的新型语言视觉推理框架。这款创新模型通过独特的潜空间推理技术,首次将视觉语言动作(VLA)、世界模型构建与潜空间分析三大技术路径整合到统一框架中,标志着多模态人工智能研究迈入新阶段。
据小米董事长雷军在社交平台发布的消息,该框架在自动驾驶等复杂场景的推理任务中展现出显著优势。团队测试数据显示,Xiaomi OneVL在多个主流基准测试中均突破了现有潜空间推理方法的性能极限,特别是在需要跨模态理解的规划类任务中表现尤为突出。这项成果距离小米三月发布XLA认知大模型架构仅隔两个月,显示出公司持续加码人工智能基础研究的决心。
为推动技术生态发展,小米决定将Xiaomi OneVL的完整技术体系向全球开放。开放内容包括模型训练权重、核心算法代码及推理引擎实现,开发者可基于这些资源进行二次开发或定制化应用。雷军特别强调,此举旨在吸引全球科研力量共同探索自动驾驶等领域的创新可能,通过开源协作加速技术迭代进程。
行业分析人士指出,潜空间推理技术的突破为解决多模态数据融合难题提供了新思路。Xiaomi OneVL通过构建统一的表征空间,有效降低了不同模态数据间的语义鸿沟,这种技术路径可能对机器人控制、智能交互等需要实时环境感知的场景产生深远影响。随着代码的全面开源,预计将引发新一轮的技术创新竞赛。













