近期,一份深度探讨了2025年多模态大模型及应用发展趋势与商业化进程的报告引起了广泛关注。该报告全面剖析了多模态大型语言模型(MLLM)的兴起背景、技术架构、商业化现状以及未来潜力,为行业内外提供了宝贵的洞察。
多模态技术被视为大语言模型发展的下一站,它通过整合大型语言模型(LLM)与大型视觉模型(LVM)的优势,实现了对多模态信息的全面接收、推理与输出。MLLM主要分为非原生与原生两种架构。非原生架构通过Pipeline形式连接多模态与LLM,依赖于预训练模块和连接器;而原生架构则采用端到端的训练方式,具备更高的统一性和效率,受到如OpenAI、Google等头部厂商的青睐,国内大厂也在积极探索这一领域。
在商业化方面,海外多模态技术的进展显著快于国内。目前,全球年化收入超过1亿美金的AI产品中,多数来自于海外的多模态初创公司。尽管国内出海产品在海外市场表现突出,但整体来看,国内在2C和2B领域的AI收入贡献与海外仍存在一定差距。不过,随着多模态产品的持续迭代,这一差距有望逐渐缩小。
报告指出,多模态产品在图像生成领域已经从追求高质量转向了提升易用性。而在视频生成方面,国内厂商取得了显著进步。语音、音乐等其他多模态产品也在不断涌现,为市场带来了更多元化的选择。然而,国内大模型在发展过程中仍面临诸多挑战,包括算力受限、高价值用户数据稀缺以及跟随海外闭源路线等问题。