阿里巴巴近日在视频生成技术领域迈出了重要一步,正式推出了其最新的多模态视频生成模型——通义万相Wan2.2-S2V,并宣布该模型已全面开源。
这款创新模型的核心功能在于,用户仅需提供一张静态图片和一段音频,即可通过通义万相Wan2.2-S2V生成出面部表情自然、口型同步、动作流畅的电影级数字人视频。生成的视频时长可达分钟级别,为数字人直播、影视后期制作、AI教育等多个领域带来了前所未有的视频创作效率提升。
通义万相Wan2.2-S2V是阿里巴巴在视频生成领域持续探索的最新成果。早在今年7月,阿里就曾推出包括文生视频、图生视频等在内的通义万相Wan2.2系列模型,这些模型首次引入了MoE架构,极大地提升了视频生成的效率和质量。而在8月,阿里又进一步推出了推理速度大幅提升的Wan2.2-I2V-Flash模型。
此次发布的通义万相Wan2.2-S2V则更加注重音频驱动技术的应用,通过结合图像与音频信息,实现了画面与音频的高度契合。用户无论是想制作真人、卡通、动物还是数字人的视频,都可以通过该模型轻松实现。
在实际体验中,通义万相Wan2.2-S2V展现出了惊人的视频生成能力。无论是让动画角色唱歌、让小狗张嘴,还是让历史人物开口说话,该模型都能精准地捕捉到音频中的信息,并生成出与音频完美同步的视频画面。特别是在生成真人角色的视频时,该模型能够准确地还原出人物的面部表情和动作细节,使得生成的视频看起来栩栩如生。
通义万相Wan2.2-S2V还支持不同分辨率的视频生成需求,无论是竖屏短视频还是横屏影视剧,都能轻松应对。同时,该模型还引入了层次化帧压缩技术,将历史参考帧的长度从数帧拓展到了73帧,从而实现了更加稳定的长视频生成效果。
随着数字人直播、影视制作等行业对高效视频创作工具的需求日益增长,通义万相Wan2.2-S2V的推出无疑为这些行业带来了革命性的变化。阿里巴巴在视频生成技术领域的持续创新和突破,也将为整个行业的发展注入新的活力。