小米在人工智能领域再获突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。这一会议作为全球音频领域最具权威性和影响力的学术盛会之一,自1976年在美国费城首次举办以来,已有近50年历史。ICASSP 2026将于今年5月在西班牙巴塞罗那举行,小米的入选标志着其在音频及相关AI领域的技术实力获得国际认可。
在音频理解领域,小米团队推出了ACAVCaps数据集,旨在突破现有数据集在规模与描述粒度上的瓶颈。该数据集通过创新的自动化管线,从多维度、多视角对音频内容进行精细化刻画,利用多个专家模型并行提取声音事件、音乐特征、说话人属性等关键元数据,并引入大语言模型进行逻辑整合。ACAVCaps包含约470万条音频-文本对,推动音频AI从简单的“特征识别”向深度的“语义理解”发展,并将于近期全面开源。
针对联邦学习中的域泛化和类别泛化问题,小米提出了FedDCG框架。该框架通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题,显著提升了模型在未知环境中的准确性与鲁棒性。实验表明,FedDCG在多个数据集上的表现优于当前最先进的基线方法,尤其在低采样率设置下仍保持领先,为跨域图像分类和隐私保护下的模型部署提供了可行路径。
在文本到音乐生成系统的感知评估方面,小米提出了FUSEMOS架构。该架构融合CLAP与MERT两大预训练模型,通过双编码器策略实现更精准、更贴近人类听觉感知的评估。FUSEMOS引入排名感知复合损失函数,显著增强模型对人类偏好相对顺序的理解能力,在Musiceval基准上的实验结果验证了其有效性。
GLAP模型实现了跨音频领域与跨语言的音频-文本对齐,支持RAG形式的音频搜索。该模型首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,在多个语音和声音检索基准上保持领先竞争力。GLAP具备多语言泛化能力,无需目标语种微调即可在50种语言的关键词识别中展现Zero-shot能力,可直接赋能小米“人车家全生态”中的跨模态理解场景。
在视频同步音效生成领域,小米提出了MeanFlow模型。该模型通过平均速度场建模替代传统流匹配模型的瞬时速度建模,实现推理阶段的一步生成,并引入标量重缩放机制缓解失真问题。实验表明,MeanFlow在实现推理速度大幅提升的同时,精准保障音效生成质量,可直接赋能影视后期配音、短视频智能音效生成等实际场景。
小米还提出了一种统一的多任务学习框架,将“找图、找文、意图理解”整合到两个模型中。该框架通过文本编码器对齐图像和文本的语义空间,并通过跨注意力机制与NLU模型进行语义交互,实现意图感知和语义增强。实验表明,该框架在多模态检索任务上表现优异,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。












