时事快闻

全模态智能浪潮来袭：从Google Omni到Minimax，谁将引领下一个增长风口？

时间：2026-05-21 00:27 来源：快讯作者：郑浩

在今年的Google I/O大会上，Gemini Omni的发布成为全场焦点，引发了科技界对AI多模态能力的热烈讨论。这场大会的热度较往年显著提升，背后不仅是新技术的亮相，更寄托了业界对AI技术从模型能力向实际业务收入转化的期待。谷歌此次推出的Omni，标志着其AI战略从分散走向统一，试图通过一个系统整合文本、图像、视频、音频等多种模态的生成与理解能力。

Omni的核心突破在于其“全模态”架构。传统AI工具往往专注于单一模态，例如文本生成或图像处理，而Omni通过一个对话框即可完成写文章、生成图片、剪辑视频、记住上下文等复杂任务。谷歌展示的案例中，用户仅需输入一句指令，系统便能自动生成一段完整的教学视频，涵盖空间关系、文字内容和推理逻辑三个维度。这种能力不仅限于“画”出场景，更在于“理解”场景中各元素的物理关系和逻辑链条。

另一项关键创新是统一任务处理。此前，用户完成一个带字幕和背景音乐的短视频制作，可能需要切换四五个工具，而Omni将文本、图像、视频、音频等能力整合到一个系统中，大幅降低了操作门槛。谷歌的这一转向，直接回应了市场对“全模态Agent”的迫切需求——真实世界的任务往往混合多种信息形态，只有具备跨模态处理能力的AI，才能真正跨越场景、适配角色。

谷歌的竞争对手们也在加速布局。OpenAI近期重组产品线，试图融合“全模态实时交互”与“慢思考思维链”，但内部路线分歧导致进展缓慢。国内方面，Minimax成为少数在文本和多模态领域均领先的公司。其M2系列的Token用量在2026年2月较2025年12月增长6倍，每分钟Token处理量（TPM）每周保持10%-20%的环比增速。摩根士丹利研报显示，Minimax的ARR在2026年2月已超1.5亿美元，年底有望达10亿美元，单位经济效益显著优于行业平均水平。

Minimax的商业模式以效率为核心。其单台8xH800推理服务器可实现每分钟约1美元营收，运行成本不足0.3美元，毛利率从2024年的12.2%提升至2025年的25.4%，营销费用同比下降40.3%。这种“低成本、高回报”的模式，源于其从创立初期便坚持的文本与多模态并行发展策略。与谷歌Omni类似，Minimax的底层能力在LLM预训练、视觉模型、视频生成等环节高度共享，研发投入的边际效益随模型迭代持续放大。

市场对“全模态”的期待正在转化为实际收益。阿里财报显示，其MaaS业务ARR已超80亿元人民币，预计2026年底达300亿元，半年间增长3.75倍。这一增速部分依赖于其现有销售网络和云基础设施，而纯AI公司如Minimax的弹性空间可能更大。摩根大通指出，Minimax同时布局ToB和ToC市场，并通过全球化策略获得经济灵活性，其增长天花板显著高于同行。

技术层面，Minimax的下一代模型M3和H3备受关注。M3预计将大幅提升AI Agent规划、执行多步骤任务的能力，配合工程层创新（如MaxHermes），将应用范围从代码生成扩展至办公场景。H3则有望在视频理解能力上领先同行，并通过工程层设计降低使用门槛，使普通用户也能轻松上手。瑞银认为，Minimax的“模型+工程层”双轮驱动模式，是其真正的护城河——模型是引擎，工程层是方向盘，二者结合才能实现高效落地。

全模态的普及正在重塑AI竞争格局。从ChatGPT的语言智能启蒙，到Sora的视觉智能觉醒，再到Gemini Omni指向的全模态智能爆发，AI能力正从单一维度向复杂系统演进。当AI Agent能同时看懂设计草图、听懂语音指令、生成带字幕的视频并配上音乐时，其应用场景和商业价值将迎来指数级增长。这场变革中，谁能率先构建统一的多模态架构，谁便可能掌握下一代AI生态的核心生态位。

更多>同类天脉资讯

法治赋能民营经济：一秒钟见证创新力量，一年间焕发蓬勃生机

05-21