近日,Soul App AI团队(Soul AI Lab)宣布开源其自主研发的实时数字人生成模型SoulX-FlashTalk,为行业带来突破性技术方案。该模型以140亿参数规模实现0.87秒亚秒级响应、32帧/秒高帧率输出,并支持超长视频稳定生成,标志着大参数量数字人技术正式进入可商用阶段。这一成果不仅解决了传统数字人技术中延迟高、画面卡顿等痛点,更通过多项创新技术重新定义了实时交互体验标准。
技术突破方面,SoulX-FlashTalk通过全栈加速引擎实现性能跃升。其首帧生成延迟较行业平均水平降低72%,在视频通话、直播互动等场景中可实现"零感知"响应。模型采用14B超大DiT架构,推理吞吐量达32fps,远超直播行业25fps的基准要求,确保画面流畅度。针对长视频生成中的身份漂移问题,团队研发的自纠正双向蒸馏技术通过多步回溯机制实时修正误差,配合双向注意力机制同时参考前后文信息,使数字人在超长直播中保持口型、面部特征与背景的高度一致。
在动作生成领域,该模型突破传统面部驱动局限,支持音频驱动的全身动态生成。通过14B DiT建模能力,模型可精准呈现手部细节,消除畸形与模糊现象,动作自然度提升40%的同时保持99.22%的身份一致性。技术实现上,团队采用两阶段训练策略:第一阶段通过动态长宽比分桶微调优化时空适配性;第二阶段运用DMD框架压缩采样步数,结合随机截断策略实现显存高效利用。全栈加速引擎集成混合序列并行、算子级优化等创新方案,最终达成亚秒级延迟与32fps稳定输出的双重突破。
实测数据显示,在TalkBench-Short评测中,SoulX-FlashTalk的ASE评分达3.51、IQA评分4.79,口型同步指标Sync-C为1.47;长视频生成场景下Sync-C提升至1.61,且全程维持32fps输出。这些数据全面领先行业主流模型,特别是在电商直播、短视频制作等商用场景中,可有效解决画质模糊、口型错位等问题,帮助企业降低60%以上的运营成本。此前,该团队开源的语音合成模型SoulX-Podcast已获HuggingFace TTS趋势榜首位,GitHub星标数突破3100,此次开源标志着Soul在AI+社交领域的技术布局进入新阶段。













