在AI图像生成领域,主流扩散模型常因生成速度缓慢而让用户感到不便。如今,阿里智能引擎团队带来了一项突破性进展——他们成功将图像生成时间大幅缩短,仅需5秒即可产出4张2K高清大图,彻底颠覆了传统等待体验。
该团队针对Qwen最新开源模型,将原本需要80-100步前向计算的SOTA压缩技术,直接优化至仅需2步完成。这一改进使图像生成效率提升40倍,过去需要近一分钟才能生成的图片,如今眨眼间即可呈现。这一成果不仅解决了传统模型"磨叽"的痛点,更为实时创作场景提供了技术支撑。
技术突破的背后,是团队对蒸馏方案的深度革新。早期轨迹蒸馏方法存在显著缺陷:当迭代步数降低时,生成的图像会出现模糊、细节扭曲等问题,尤其在文字、人物五官等精细区域表现不佳。研究发现,这类方法对所有图像区域"一视同仁"的约束方式,导致细节部分因占比低而学习不足。
为突破这一瓶颈,团队引入基于概率空间的DMD2算法。该方案将约束从样本空间转移至概率空间,通过Reverse-KL损失函数设计,让模型自主生成图片后接受教师模型指导。这种"学生生成-教师指导"的模式,显著提升了生成图像的细节合理性,成为当前扩散步数蒸馏的主流策略。
面对2步蒸馏场景下的分布退化问题,团队采用PCM蒸馏进行模型热启动。实验数据显示,经过热启动的模型在形体扭曲问题上改善明显。通过对比可见,直接使用DMD2训练的模型存在构图不合理现象,而热启动后的模型则能生成更自然的图像结构。
为进一步提升细节表现力,团队创新性地将对抗学习(GAN)引入训练流程。通过混合高质量真实数据与教师生成图、引入DINO特征提取器、调整损失函数权重等优化措施,使模型在苔藓、动物毛发等复杂纹理上的生成效果显著提升。对比实验表明,增加GAN监督后的模型,其画面质感和细节层次均达到新高度。
目前,该团队的优化成果已通过Checkpoint形式在HuggingFace和ModelScope平台开放下载,同时集成至呜哩AI平台供开发者调用。这项突破不仅展现了团队在工程优化领域的深厚积累,更体现了其"技术开放共享"的理念——此前他们已贡献Havenask、RTP-LLM等多个优秀开源项目。
尽管当前模型在多数场景已能媲美原始版本,但在处理复杂场景时仍存在提升空间。团队表示将持续迭代技术,未来计划推出更多扩散加速方案,并将持续开源模型权重。这项突破正在重新定义AI图像生成的效率标准,为创意工作者提供更高效的创作工具。













