在今年的Google I/O大会上,Gemini Omni的发布成为全场焦点,引发了科技界对AI多模态能力的热烈讨论。这场大会的热度较往年显著提升,背后不仅是新技术的亮相,更寄托了业界对AI技术从模型能力向实际业务收入转化的期待。谷歌此次推出的Omni,标志着其AI战略从分散走向统一,试图通过一个系统整合文本、图像、视频、音频等多种模态的生成与理解能力。
Omni的核心突破在于其“全模态”架构。传统AI工具往往专注于单一模态,例如文本生成或图像处理,而Omni通过一个对话框即可完成写文章、生成图片、剪辑视频、记住上下文等复杂任务。谷歌展示的案例中,用户仅需输入一句指令,系统便能自动生成一段完整的教学视频,涵盖空间关系、文字内容和推理逻辑三个维度。这种能力不仅限于“画”出场景,更在于“理解”场景中各元素的物理关系和逻辑链条。
另一项关键创新是统一任务处理。此前,用户完成一个带字幕和背景音乐的短视频制作,可能需要切换四五个工具,而Omni将文本、图像、视频、音频等能力整合到一个系统中,大幅降低了操作门槛。谷歌的这一转向,直接回应了市场对“全模态Agent”的迫切需求——真实世界的任务往往混合多种信息形态,只有具备跨模态处理能力的AI,才能真正跨越场景、适配角色。
谷歌的竞争对手们也在加速布局。OpenAI近期重组产品线,试图融合“全模态实时交互”与“慢思考思维链”,但内部路线分歧导致进展缓慢。国内方面,Minimax成为少数在文本和多模态领域均领先的公司。其M2系列的Token用量在2026年2月较2025年12月增长6倍,每分钟Token处理量(TPM)每周保持10%-20%的环比增速。摩根士丹利研报显示,Minimax的ARR在2026年2月已超1.5亿美元,年底有望达10亿美元,单位经济效益显著优于行业平均水平。
Minimax的商业模式以效率为核心。其单台8xH800推理服务器可实现每分钟约1美元营收,运行成本不足0.3美元,毛利率从2024年的12.2%提升至2025年的25.4%,营销费用同比下降40.3%。这种“低成本、高回报”的模式,源于其从创立初期便坚持的文本与多模态并行发展策略。与谷歌Omni类似,Minimax的底层能力在LLM预训练、视觉模型、视频生成等环节高度共享,研发投入的边际效益随模型迭代持续放大。
市场对“全模态”的期待正在转化为实际收益。阿里财报显示,其MaaS业务ARR已超80亿元人民币,预计2026年底达300亿元,半年间增长3.75倍。这一增速部分依赖于其现有销售网络和云基础设施,而纯AI公司如Minimax的弹性空间可能更大。摩根大通指出,Minimax同时布局ToB和ToC市场,并通过全球化策略获得经济灵活性,其增长天花板显著高于同行。
技术层面,Minimax的下一代模型M3和H3备受关注。M3预计将大幅提升AI Agent规划、执行多步骤任务的能力,配合工程层创新(如MaxHermes),将应用范围从代码生成扩展至办公场景。H3则有望在视频理解能力上领先同行,并通过工程层设计降低使用门槛,使普通用户也能轻松上手。瑞银认为,Minimax的“模型+工程层”双轮驱动模式,是其真正的护城河——模型是引擎,工程层是方向盘,二者结合才能实现高效落地。
全模态的普及正在重塑AI竞争格局。从ChatGPT的语言智能启蒙,到Sora的视觉智能觉醒,再到Gemini Omni指向的全模态智能爆发,AI能力正从单一维度向复杂系统演进。当AI Agent能同时看懂设计草图、听懂语音指令、生成带字幕的视频并配上音乐时,其应用场景和商业价值将迎来指数级增长。这场变革中,谁能率先构建统一的多模态架构,谁便可能掌握下一代AI生态的核心生态位。












