阿里智能引擎团队突破AI生图速度极限:2步生成2K高清图 5秒极速出片

   时间:2026-01-30 21:00 来源:快讯作者:周伟

在AI图像生成领域,主流扩散模型常因生成速度缓慢而让用户感到不便。如今,阿里智能引擎团队带来了一项突破性进展——他们成功将图像生成时间大幅缩短,仅需5秒即可产出4张2K高清大图,彻底颠覆了传统等待体验。

该团队针对Qwen最新开源模型,将原本需要80-100步前向计算的SOTA压缩技术,直接优化至仅需2步完成。这一改进使图像生成效率提升40倍,过去需要近一分钟才能生成的图片,如今眨眼间即可呈现。这一成果不仅解决了传统模型"磨叽"的痛点,更为实时创作场景提供了技术支撑。

技术突破的背后,是团队对蒸馏方案的深度革新。早期轨迹蒸馏方法存在显著缺陷:当迭代步数降低时,生成的图像会出现模糊、细节扭曲等问题,尤其在文字、人物五官等精细区域表现不佳。研究发现,这类方法对所有图像区域"一视同仁"的约束方式,导致细节部分因占比低而学习不足。

为突破这一瓶颈,团队引入基于概率空间的DMD2算法。该方案将约束从样本空间转移至概率空间,通过Reverse-KL损失函数设计,让模型自主生成图片后接受教师模型指导。这种"学生生成-教师指导"的模式,显著提升了生成图像的细节合理性,成为当前扩散步数蒸馏的主流策略。

面对2步蒸馏场景下的分布退化问题,团队采用PCM蒸馏进行模型热启动。实验数据显示,经过热启动的模型在形体扭曲问题上改善明显。通过对比可见,直接使用DMD2训练的模型存在构图不合理现象,而热启动后的模型则能生成更自然的图像结构。

为进一步提升细节表现力,团队创新性地将对抗学习(GAN)引入训练流程。通过混合高质量真实数据与教师生成图、引入DINO特征提取器、调整损失函数权重等优化措施,使模型在苔藓、动物毛发等复杂纹理上的生成效果显著提升。对比实验表明,增加GAN监督后的模型,其画面质感和细节层次均达到新高度。

目前,该团队的优化成果已通过Checkpoint形式在HuggingFace和ModelScope平台开放下载,同时集成至呜哩AI平台供开发者调用。这项突破不仅展现了团队在工程优化领域的深厚积累,更体现了其"技术开放共享"的理念——此前他们已贡献Havenask、RTP-LLM等多个优秀开源项目。

尽管当前模型在多数场景已能媲美原始版本,但在处理复杂场景时仍存在提升空间。团队表示将持续迭代技术,未来计划推出更多扩散加速方案,并将持续开源模型权重。这项突破正在重新定义AI图像生成的效率标准,为创意工作者提供更高效的创作工具。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报