时事快闻

小米MiMo与TileRT联手：8卡GPU实现万亿模型每秒千token输出

时间：2026-06-09 15:50 来源：天脉网作者：柳晴雪

小米MiMo团队与TileRT系统团队近日联合宣布，其研发的Xiaomi MiMo-V2.5-Pro大模型在UltraSpeed模式下实现重大突破——万亿参数规模下输出速度首次突破每秒1000 tokens。这一进展标志着AI推理性能进入全新阶段，为实时交互、高频决策等场景提供了技术支撑。

以复杂可视化大屏生成任务为例，UltraSpeed模式仅需13秒即可完成，而标准版耗时长达6分15秒，同等效果下提速达28倍。该技术通过单节点8卡通用GPU实现，核心突破包括FP4量化压缩、DFlash高效推测解码技术，以及TileRT定制编译内核的软硬件协同优化。团队负责人表示，这一成果证明通用计算架构在AI推理领域的潜力，无需依赖专用芯片即可实现性能跃升。

在医疗领域，该技术可显著缩短手术辅助系统的响应时间。例如，在病灶分析场景中，模型能在数秒内完成影像解读并输出风险评估，为医生争取关键处置窗口。金融领域同样受益，高频量化交易信号生成、反欺诈风控拦截等场景对毫秒级响应的需求得到满足。技术演示显示，系统可在10秒内生成功能完整的贪吃蛇游戏，1分钟内复刻macOS系统界面，展现其处理复杂任务的能力。

技术实现层面，团队采用三项关键创新：首先，针对MoE架构特性实施FP4量化，仅对专家模块进行压缩，在保持模型精度的同时将显存占用降低75%；其次，开发DFlash块级并行预测技术，通过滑动窗口注意力机制实现常数级算力消耗，使单次验证可确认8个连续token；最后，TileRT推理系统重构执行模型，通过常驻内核引擎消除算子切换间隙，配合异构流水线协作实现数据搬运与计算的重叠优化。

目前，UltraSpeed模式的API接口已上线，采用限时体验定价策略，速度提升约10倍的同时价格仅为标准版的3倍。该服务实行申请制开放，6月9日至23日期间通过审核的用户可获得两周免费体验权限。团队同步开源了FP4量化权重与DFlash模型参数，后续还将推出极致推理优化方案。技术文档显示，在代码生成场景中，模型单轮验证接受长度达6.3个token，部分样本突破7个，但通用对话场景仍需持续优化。

行业分析指出，这项突破为AI大规模商用扫清关键障碍。相比专用芯片方案，通用GPU路径显著降低硬件门槛，使实时推理能力更易普及。不过，当前技术仍面临资源紧张问题，申请制开放模式反映出大规模部署的挑战。随着编译引擎与计算核的持续优化，万亿参数模型的实时交互能力有望向更多领域扩展。

更多>同类天脉资讯

华能新能源布局河南：新公司成立聚焦风力太阳能发电服务

07-01

7月1日A股：科创50冲高回落，大金融养殖走强，科创50ETF后续走势受关注

07-01

芯片板块冲高回落显波动，科创芯片ETF易方达规模半年激增超18倍

07-01

宜安科技：轻质合金筑基新材料赛道发力东莞证券首评“买入”

07-01

尚界Z7对标小米SU7成效初显，6月销量破万，小米汽车面临新挑战？

07-01