小米MiMo与TileRT联手:8卡GPU实现万亿模型每秒千token输出

   时间:2026-06-09 15:50 来源:天脉网作者:柳晴雪

小米MiMo团队与TileRT系统团队近日联合宣布,其研发的Xiaomi MiMo-V2.5-Pro大模型在UltraSpeed模式下实现重大突破——万亿参数规模下输出速度首次突破每秒1000 tokens。这一进展标志着AI推理性能进入全新阶段,为实时交互、高频决策等场景提供了技术支撑。

以复杂可视化大屏生成任务为例,UltraSpeed模式仅需13秒即可完成,而标准版耗时长达6分15秒,同等效果下提速达28倍。该技术通过单节点8卡通用GPU实现,核心突破包括FP4量化压缩、DFlash高效推测解码技术,以及TileRT定制编译内核的软硬件协同优化。团队负责人表示,这一成果证明通用计算架构在AI推理领域的潜力,无需依赖专用芯片即可实现性能跃升。

在医疗领域,该技术可显著缩短手术辅助系统的响应时间。例如,在病灶分析场景中,模型能在数秒内完成影像解读并输出风险评估,为医生争取关键处置窗口。金融领域同样受益,高频量化交易信号生成、反欺诈风控拦截等场景对毫秒级响应的需求得到满足。技术演示显示,系统可在10秒内生成功能完整的贪吃蛇游戏,1分钟内复刻macOS系统界面,展现其处理复杂任务的能力。

技术实现层面,团队采用三项关键创新:首先,针对MoE架构特性实施FP4量化,仅对专家模块进行压缩,在保持模型精度的同时将显存占用降低75%;其次,开发DFlash块级并行预测技术,通过滑动窗口注意力机制实现常数级算力消耗,使单次验证可确认8个连续token;最后,TileRT推理系统重构执行模型,通过常驻内核引擎消除算子切换间隙,配合异构流水线协作实现数据搬运与计算的重叠优化。

目前,UltraSpeed模式的API接口已上线,采用限时体验定价策略,速度提升约10倍的同时价格仅为标准版的3倍。该服务实行申请制开放,6月9日至23日期间通过审核的用户可获得两周免费体验权限。团队同步开源了FP4量化权重与DFlash模型参数,后续还将推出极致推理优化方案。技术文档显示,在代码生成场景中,模型单轮验证接受长度达6.3个token,部分样本突破7个,但通用对话场景仍需持续优化。

行业分析指出,这项突破为AI大规模商用扫清关键障碍。相比专用芯片方案,通用GPU路径显著降低硬件门槛,使实时推理能力更易普及。不过,当前技术仍面临资源紧张问题,申请制开放模式反映出大规模部署的挑战。随着编译引擎与计算核的持续优化,万亿参数模型的实时交互能力有望向更多领域扩展。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报 鲁公网安备37010202700497号