在近期举办的小米“人车家全生态合作伙伴大会”上,小米MiMo团队负责人罗福莉首次登台演讲,引发行业高度关注。这位前DeepSeek核心成员的加入,被视为小米AI研发迈向专业化与极客化的重要标志。市场期待她能延续在DeepSeek时期的创新风格,为小米带来兼具效率与突破性的AI模型,而她的极客气质与小米初创基因的融合,更被寄予厚望。
尽管首次亮相略显紧张,罗福莉仍不负众望,推出了高效模型MiMo-V2-Flash,并分享了小米对通用人工智能(AGI)的新构想。她指出,当前多数模型仅具备“完美的语言外壳”,却缺乏对物理世界的真实模拟能力。在她看来,真正的智能应源于与环境的交互,而非单纯依赖程序构建。通往AGI的关键,在于推演世界运作逻辑,构建一个具备物理一致性的虚拟宇宙。
MiMo-V2-Flash的开源模型延续了DeepSeek的技术基因,采用混合专家(MoE)架构与多令牌预测(MTP)技术,在效率与成本间实现突破。该模型总参数达309B,但通过动态激活机制仅需15B参数即可运行,结合MTP技术,生成速度达150 tokens/秒,较传统模型提升约2.5倍。这一设计主要针对车机、智能助手等对延迟敏感的端侧场景,通过固定KV缓存降低硬件压力,同时支持256K长上下文处理,并在代码生成任务中刷新行业纪录。
在成本控制方面,后训练阶段引入的多教师在线策略蒸馏(MOPD)技术,以极低计算量(不足标准流程的1/50)复刻教师模型性能,显著降低大规模部署门槛。这一务实策略,使MiMo-V2-Flash在价格与速度的权衡中占据优势。对比同类模型,其推理成本仅为DeepSeek-V3.2的三分之一,速度却是后者的三倍;与Gemini 2.5 Pro性能相当的情况下,成本降低20倍。
罗福莉在演讲中以生物进化为喻,阐释AI发展路径的特殊性。她指出,自然界通过6亿年演化,从身体控制到多巴胺系统,再到哺乳动物的未来模拟能力,最终人类登上智能塔尖。而当前大模型的发展路径恰与此相反——先掌握语言能力,再补足思考与物理感知。这种“倒叙”模式虽通过压缩人类认知实现快速突破,却缺乏对重力、触觉等基础物理法则的理解,导致具身幻觉频发。因此,下一代智能体需从“回答问题”转向“完成任务”,具备全模态感知与动态系统能力,才能真正融入生活流。
目前,MiMo-V2-Flash已开源模型权重与技术报告,并提供API接口与Web体验平台。尽管端侧AI的硬件限制仍待突破——当前旗舰手机的舒适区仅支持3B至7B参数模型,15B激活参数对移动设备而言仍是挑战——但罗福莉的尝试为小米“人车家生态”构建了新的技术叙事。这场以语言为起点、向物理世界延伸的探索,或许正预示着AI与硬件融合的新可能。















