小米在人工智能领域再次取得重大突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。这一全球音频领域最具权威性的学术盛会将于今年5月在西班牙巴塞罗那举行,首次会议可追溯至1976年美国费城。此次入选的成果涵盖音频理解、音乐生成评估、联邦学习泛化、跨模态预训练等多个前沿方向,展现了小米在AI技术研发上的深厚积累。
在音频理解领域,小米团队提出的ACAVCaps数据集开创了精细化标注新范式。该数据集通过多专家模型并行提取声音事件、音乐特征等元数据,并引入大语言模型进行逻辑整合,使标注文本从简单标签升级为具备上下文关系的自然语言。这项创新解决了传统数据集"规模大但描述简略"或"描述详尽但规模受限"的矛盾,包含约470万条音频-文本对,近期将全面开源。研究团队表示,这将推动音频AI从特征识别向语义理解跃迁。
联邦学习领域迎来重要突破,小米提出的FedDCG框架首次在联邦学习设置下联合解决类别和域泛化问题。该框架通过域分组策略避免决策边界混淆,采用类特定协作训练机制增强模型鲁棒性。实验数据显示,在Office-Home数据集上训练的模型在ImageNet-R测试中准确率达70.30%,较次优方法提升近3个百分点。这项技术特别适用于跨域图像分类和隐私保护场景,为移动端智能处理提供了高效解决方案。
音乐生成评估领域,小米研发的FUSEMOS双编码器架构实现了感知评估的质的飞跃。该架构融合CLAP的语义对齐能力和MERT的音乐结构建模能力,通过晚期融合策略保留模态独立性,并引入排名感知复合损失函数。在Musiceval基准测试中,新方法在均方误差和排序相关性等关键指标上显著优于现有技术,为文本到音乐生成系统提供了更贴近人类听觉的评估标准。
跨模态预训练方面,GLAP模型实现了跨音频领域与跨语言的双重突破。该模型通过单一框架同时优化语音、音乐及声音事件的检索性能,在LibriSpeech英文语音检索中recall@1达94%,AISHELL-2中文语音检索达99%。更引人注目的是,GLAP具备50种语言的零样本关键词识别能力,可直接赋能小米"人车家全生态"中的语音交互、多模指令理解等场景,显著降低下游产品线的研发门槛。
视频到音频合成领域,MeanFlow模型通过平均速度场建模实现推理效率的革命性提升。该模型摒弃传统多步迭代采样,实现8秒音频仅需0.056秒的极速生成,同时保持SOTA级的音效质量。实验表明,其推理速度较现有方法提升2至500倍,且能自然延伸至文本生音效任务。这项技术将为影视配音、短视频创作、虚拟形象交互等领域带来实时音效生成的新可能。
多模态检索领域,小米研发的统一多任务学习框架实现了"找图、找文、意图理解"的深度整合。该框架通过单个文本编码器同时对齐图像和文本语义空间,并引入跨注意力机制与NLU模型交互。实验显示,新方法在多语言测试中平均召回率达93.3%-94.8%,较主流模型提升1.1%-2.7个百分点,同时将模型复杂度降低40%以上,为手机场景下的多模态检索提供了轻量化解决方案。













