阿里通义万相开源新模型:照片+音频秒变电影级视频

   时间:2025-08-27 14:07 来源:天脉网作者:冯璃月

阿里巴巴近日在AI视频生成领域取得了新突破,正式推出了其通义万相系列中的全新多模态视频生成模型——Wan2.2-S2V。这一创新技术使得用户仅凭借一张静态图片和一段音频,即可生成面部表情生动、口型同步、动作流畅的电影级数字人视频。

Wan2.2-S2V模型的发布标志着数字内容创作进入了一个全新的阶段。该模型单次生成的视频时长可达分钟级别,极大地提升了数字人直播、影视后期制作、AI教育等多个行业的视频创作效率。目前,该模型已在通义万相官网、Hugging Face以及魔搭社区等平台上线,供用户免费试用。

回顾通义万相的发展历程,自今年7月推出文生视频、图生视频等模型以来,阿里巴巴不断加速在视频生成领域的布局。7月28日,通义万相Wan2.2系列模型首次亮相,包括文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B以及统一视频生成Wan2.2-IT2V-5B三款模型,其中两款视频生成模型采用了业界领先的MoE架构。

在此基础上,8月11日,阿里巴巴进一步推出了Wan2.2-I2V-Flash模型,其推理速度相比前代提升了12倍,成本降低至0.1元/秒,抽卡成功率也大幅提升。而此次发布的Wan2.2-S2V模型则更加注重音频与图像的同步,通过图像与音频的深度融合,生成更加契合的视频内容。

在实际体验中,Wan2.2-S2V模型展现出了强大的性能。无论是真人、卡通、动物还是数字人形象,该模型都能根据用户上传的音频生成出表情自然、动作流畅的视频。用户只需选择对应的模式,上传图片和音频,即可轻松生成人物说话、唱歌或表演等动作的视频。

Wan2.2-S2V模型还支持不同分辨率的视频生成,满足了从竖屏短视频到横屏影视剧等多种场景的需求。该模型还引入了AdaIN和CrossAttention两种控制机制,实现了更准确、更动态的音频控制效果。通过层次化帧压缩技术,该模型将历史参考帧的长度从数帧拓展到73帧,从而确保了长视频生成的稳定性和质量。

随着数字人直播、影视制作等行业对高效视频创作工具需求的不断增长,阿里巴巴通义万相系列模型的推出无疑为这些行业带来了全新的解决方案。未来,随着技术的不断迭代和优化,相信AI视频生成技术将在更多领域发挥巨大的潜力。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报