在人工智能领域,生成式AI的发展路径正逐步展现出多元化的趋势。除了大语言模型的风起云涌,多模态大模型作为另一条并驾齐驱的技术路线,正逐渐吸引业界的广泛关注。近年来,诸如OpenAI的视频生成模型Sora及4D图像生成功能等里程碑式成果,标志着多模态技术在不断突破。
然而,在近日举办的2025北京智源大会上,与会专家普遍认为,尽管多模态技术取得了显著进展,但尚未迎来其“ChatGPT时刻”。智源研究院院长王仲远指出,当前多模态模型主要聚焦于静态画面的理解,这与人类对动态、预测性多模态信息的处理能力相比,仍存在较大差距。他举例说:“当我们接近水源时,能预见到下一步的动作,而现有模型往往只能描述静态场景。”
针对这一挑战,AI视频创新企业Sand.ai的创始人兼CEO曹越提出了自回归技术路径,旨在通过深入理解历史视频内容,预测并生成未来的视频场景。曹越强调,当前主流的多模态生成模型,如基于Transformer架构的扩散模型(DiT),虽然在逐步去噪还原图像或视频方面表现出色,但在长视频生成方面却面临瓶颈。自回归模型则通过逐帧、逐块生成图像或视频,有望实现更长时间的视频预测与生成。
OpenAI研究科学家姚顺雨曾指出,AI已进入下半场,重心将从解决问题转向定义问题。然而,在智源大会的分论坛上,AI视觉领域的明星企业Luma AI的首席科学家宋佳铭表示,这一“上下半场”的划分更适用于语言模型。他指出,多模态模型目前尚未能很好地解决上半场的问题,即通过一个大一统的模型,像人一样处理不同模态的任务,并保持快速推理速度。
从应用落地的角度来看,腾讯混元多模态生成负责人芦清林认为,上下半场的分界线并不清晰。他强调,模型的成熟度与应用场景的需求紧密相连。即便技术研发人员认为模型仍有改进空间,但只要专业人员开始采用,并在实际工作中带来提效或帮助,那么这项技术就已经达到了能带来实际改变的阶段。
字节跳动Seed图像&视频生成负责人黄伟林则分享了判断技术商业化程度的三个关键数据指标:效率数据、用户留存数据和收入数据。他指出,头部AI视频产品的年度经常性收入(ARR)有望在年底达到1亿美元或更多,明年有望实现5到10倍的增长。
在技术与商业的结合层面,Sand.ai联合创始人张拯强调,应追求有效的扩展定律(Scaling Law)。他指出,在扩展模型规模、提升性能时,必须确保由此带来的用户价值和经济回报能够覆盖所投入的资源成本。否则,从商业角度来看,这样的扩展将是无效的。
最后,关于多模态AI技术的未来发展,与会专家普遍持乐观态度,认为随着技术的不断进步和应用场景的拓展,多模态AI将有望在更多领域发挥重要作用。