硅谷科技机构OpenRouter与知名风投公司a16z联合发布的《AI发展态势:基于百万亿Token的实证研究》报告,在科技圈引发广泛关注。该报告以OpenRouter平台2024年11月至2025年11月期间300余个模型的使用数据为样本,涵盖GPT系列、Claude、Gemini、DeepSeek等国内外主流模型,通过分析真实Token消耗量而非传统基准测试分数,揭示了AI发展的新趋势。
报告核心结论显示,开源模型与闭源模型的关系正从替代转向互补。预计到2025年底,开源模型使用量将占整体三分之一,其中中国开源模型表现尤为亮眼,其周使用量占比从1.2%飙升至30%,平均占比达13%,与全球其他地区开源模型的13.7%份额形成分庭抗礼之势。值得注意的是,开源市场格局已发生深刻变化——DeepSeek虽仍为最大贡献者,但其主导地位随MiniMax M2、Kimi K2等新模型涌现而被削弱,预计年底将形成5-7个模型均分市场的格局。
模型形态演变方面,中型模型正成为市场新宠。报告将模型分为大型(700亿参数以上)、中型(150-700亿参数)和小型(150亿参数以下)三类,发现小型模型逐渐失宠,中型与大型模型补位趋势明显。以Qwen2.5-Coder-32B发布为转折点,Mistral Small 3、GPT-OSS 20B等中型模型持续涌入,推动该细分市场成为新的竞争焦点。报告指出:"小模型主导的时代已过去,市场正分化为新兴中型模型与顶级大型模型两极。"
语言模型的功能升级成为另一大趋势。推理模型使用量从年初的微不足道跃升至超50%,其中马斯克旗下xAI的Grok Code Fast 1占据最大推理流量份额,Gemini 2.5 Pro和Flash系列紧随其后。工具调用功能同样呈现爆发式增长,年初仅GPT-4o-mini和Claude 3.5等少数模型支持,年中后超半数模型具备该能力,Claude 4.5 Sonnet和Grok Code Fast等新玩家表现突出。报告强调:"缺乏可靠工具调用能力的模型,将在企业级应用中逐渐边缘化。"
使用场景变革方面,AI正从"聊天机器人"向"智能代理"转型。用户任务复杂度显著提升,从生成短文转向分析整份文档或代码库,提示词长度增加4倍,模型推理消耗的Token量增长近3倍。典型应用场景中,编程与角色扮演占据主导地位——编程查询量从年初11%跃升至超50%,Claude系列虽仍保持60%以上份额,但OpenAI市场份额从2%增至8%,谷歌稳定在15%,Qwen、Mistral等开源模型稳步上升,MiniMax更成为近期增长最快的新秀;角色扮演领域,开源模型占比达52%,DeepSeek超三分之二流量来自该场景,显示其消费者端强粘性。
用户行为研究提出"水晶鞋效应"理论:每代前沿模型发布时,会锁定一批任务需求与模型能力完美匹配的核心用户,这些用户留存率显著高于平均水平。如Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后仍保持40%留存率,得益于其在工具调用和推理能力的突破。报告指出:"首个用突破性能力解决关键问题的模型,即使后续被超越,也能凭借早期积累的用户习惯和系统集成保持优势。"
地域分布上,AI发展呈现多极化趋势。亚洲地区付费使用量占比从13%翻倍至31%,北美虽仍为最大市场但份额降至不足50%。语言使用方面,英语占比82%居首,简体中文以近5%份额位列第二。价格敏感度分析显示,模型定价影响远低于预期——价格下降10%仅带动使用量增长0.5%-0.7%,且总支出未必减少,符合"杰文斯悖论":当模型变得便宜好用时,用户会在更多场景高频调用,导致总Token量飙升。
报告同时承认局限性:OpenRouter数据主要反映开发者和服务端API调用行为,未涵盖ChatGPT等App/Web端直接访问流量;平台定价策略可能影响模型选择偏好。尽管如此,这份基于百万亿Token的实证研究,仍为理解AI发展动态提供了独特视角。












