Openrouter发布《基于100万亿Token数据的AI现状报告》

AI教程 2025-12-08

在当今数字化时代,人工智能(AI)尤其是大型语言模型(LLMs)正以前所未有的速度改变着我们的世界。关于模型在实际应用中的真实使用情况和影响,我们仍缺乏系统性的实证研究。基于此,OpenRouter 和 a16z 联合发布了《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》报告,通过分析 OpenRouter 平台上超过 100 万亿个 Token 的真实用户交互数据,深入探究 LLMs 在全球范围内的实际使用情况。报告揭示了开源与闭源模型的竞争格局、推理优化模型的崛起、编程与角色扮演的主导地位、AI 使用的全球化趋势,及用户留存和成本动态等关键问题,为理解 LLMs 的现状和未来发展方向提供全新的视角和数据支持。

背景与研究意义

OpenRouter和a16z联合发布的深度调查揭示了AI领域正经历一场前所未有的「大分流」。报告基于OpenRouter平台的100万亿个Token的真实用户交互元数据,覆盖2023年末至2025年11月(核心聚焦近1年),涵盖全球300多个模型、60多个提供商,是迄今为止规模最大的LLM实证研究。此前,评估AI模型影响力的指标往往局限于学术基准测试或宣称的用户数量。OpenRouter提供了首个基于真实算力消耗的上帝视角,揭示出开发者和企业究竟在如何使用AI。

开源模型的崛起

开源与闭源模型的对比

  • 闭源模型:仍主导高价值场景,占总Token使用量约70%,尤其在企业级、受监管任务(如金融合规、医疗咨询)中,用户更倾向选择OpenAI、Anthropic、Google等厂商的专有模型(如Claude 3.7 Sonnet、GPT-5 Pro)。
  • 开源模型:2025年末占比稳定在30%,增长具备“持续性”,非短期实验性使用,是深度融入生产环境(如DeepSeek V3、Qwen 3 Coder发布后,流量峰值能长期维持)。

中国开源模型的爆发

  • 数据:2024年末,中国模型的使用份额仅为1.2%;到了2025年下半年,在某些周次,中国OSS模型(如DeepSeek、Qwen、MiniMax、Kimi、GLM等)的使用量甚至占据所有模型流量的近30%。
  • 核心优势
    • 迭代速度快:DeepSeek、Qwen家族通过“高频更新”(如每月1-2个新版本)快速适配不同的场景(如长上下文编程、中文角色扮演)。
    • 场景适配强:在中文处理、角色扮演、代码生成(如Qwen 3 Coder)等领域,性能接近甚至超越开源模型(如Meta LLaMA 3.3)。

模型规模偏好:“中型模型”成新主流

  • 小模型(<15B参数):份额持续下降,虽有Google Gemma 3.12B等新品,因能力有限,用户易“频繁切换”,难以形成稳定粘性。
  • 中型模型(15B-70B参数):2025年异军突起,代表模型如Qwen2.5 Coder 32B、Mistral Small 3,在“能力(推理、代码)”与“效率(成本、latency)”间实现最优平衡,成为开发者首选。
  • 大模型(>70B参数):需求多元化,不再是“唯一选择”——Qwen3 235B、GPT-OSS-120B等虽性能强,因成本高,仅在复杂任务(如系统架构设计)中使用。

使用场景“两极分化”,编程与角色扮演统治流量

开源模型:角色扮演(Roleplay)占半壁江山

  • 数据:开源模型中,52%的Token用于角色扮演,远超“生产力场景”(编程占15%-20%,写作占5%)。
  • 场景细节:包括游戏NPC对话、同人小说创作、虚拟伴侣互动等,核心需求是“灵活回应、情感细腻度、低内容限制”,开源模型能自由微调,不受商业安全过滤器约束(如DeepSeek Chat V3支持自定义角色人设,Qwen角色扮演模型能维持长对话一致性)。

全平台:编程成“第一大场景”,竞争最激烈

  • 爆发式增长:编程任务的Token占比从2025年初的11%飙升至年末的50%+,成为LLM最核心的生产力应用(如代码生成、调试、代码库理解)。
  • 市场格局
    • Anthropic(Claude系列):长期垄断编程场景60%+份额,2025年11月首次跌破60%。
    • 追赶者崛起:OpenAI从2%升至8%,Google稳定在15%,中国OSS(Qwen Coder、DeepSeek R1)快速渗透,MiniMax等新势力周度份额波动显著(模型质量/latency微小变化即影响选择)。

Agentic推理成新范式,AI从“生成器”变“分析引擎”

推理模型:半年内占比超50%

  • 范式转变:2024年12月OpenAI o1模型(代号“草莓”)发布,标志LLM从“单通道文本生成”转向“多步内部推理”——o1通过“潜在规划、迭代优化”提升数学逻辑、多步决策能力,后续GPT-5、Claude 4.5、Gemini 3等跟进,2025年末推理模型Token占比突破50%。
  • 头部模型:xAI的Grok Code Fast 1异军突起,占推理场景Token量约25%,超越Google Gemini 2.5 Pro(20%)、OpenAI GPT-OSS-120B(15%)。

工具调用与长上下文:Agentic的“两大支柱”

  • 工具调用常态化:2025年工具调用请求占比稳步上升(排除5月异常峰值),Anthropic Claude 4.5 Sonnet(9月末后快速占比30%)、xAI Grok Code Fast(15%)是主要承接者,标志AI从“对话者”变为“系统组件”(如调用API查数据、执行代码)。
  • 上下文长度暴涨
    • 平均prompt长度:从2024年初的1500 Token增至2025年末的6000 Token(4倍增长)。
    • completion长度:从150 Token增至400 Token(3倍增长)。
    • 核心驱动:编程任务(代码库理解、调试需20000+ Token输入),其他场景(如文档分析)上下文增长平缓。

LLM被用来做了什么?

编程成第一大核心任务

  • 数据:编程类请求Token占比从2025年初的11%飙升至年末的50%+,成为增长最稳定的类别,涵盖代码生成、调试、数据脚本编写等场景,标志LLM从探索性对话转向应用性工具,深度嵌入开发者工作流程。
  • 市场竞争格局
    • Anthropic Claude系列:长期垄断编程场景60%+份额,2025年11月首次跌破60%。
    • OpenAI:份额从2%升至8%。
    • Google:稳定在15%。
    • 中国OSS(Qwen、Z.AI)及MiniMax等新秀:快速渗透,开发者对模型质量和延迟的微小变化高度敏感。

十二大常见任务的内部结构

  • 角色扮演:占开源模型Token使用量的52%,其中60%集中于“游戏/角色扮演游戏”,作家资源(15.6%)、成人内容(15.4%)占比相近,并非随意聊天,而是具有明确的类型化场景需求。
  • 编程细分:超2/3流量属于“编程/其他”,需求广泛通用;开发工具(26.4%)占比提升,专业化趋势显现。
  • 长尾领域特征
    • 科学领域:80.4%的查询聚焦“机器学习与人工智能”,以元AI问题为主,而非传统STEM主题。
    • 健康领域:分布最分散,子标签占比均不超25%,涵盖医学研究、咨询、诊断等,需求复杂且敏感。
    • 金融、法律领域:标签分散,缺乏成熟的专用LLM工作流程,应用仍处于探索阶段。

LLM的使用在不同地区有何差异

区域使用分布

  • 北美:仍是最大市场(占比47.22%),但份额持续下降。
  • 亚洲:占比从13%翻倍至31%,成为增长最快的消费市场。
  • 欧洲:稳定在15%-20%。
  • 国家层面:美国以47.17%遥遥领先,新加坡(9.21%)、德国(7.51%)、中国(6.01%)位列其后,全球超60个国家参与LLM使用。

语言分布

  • 英语:占绝对主导(82.87%),反映开发者用户基数与英语模型的普及性。
  • 简体中文:占比4.95%,俄语(2.47%)、西班牙语(1.43%)紧随其后,非英语语种需求逐步提升。

用户留存规律:“灰姑娘水晶鞋效应”决定长期粘性

核心现象

  • 多数模型用户留存率呈现“高流失、快速衰减”特征但存在基础用户群:这部分用户的工作负载与模型形成深度契合,产生经济和认知惯性,即使新模型发布也难以迁移。
  • 灰姑娘水晶鞋效应”:新模型若能精准匹配未被满足的高价值工作负载,即可锁定基础用户群;反之无法建立稳定粘性,用户持续探索替代模型。

典型留存模式

  • 先发优势型:如Claude 4 Sonnet、Gemini 2.5 Pro的早期用户群,在模型发布初期形成稳定匹配,留存率长期高于后续用户群。
  • 不匹配型:如Gemini 2.0 Flash、Llama 4 Maverick,未建立高性能基础用户群,各批次用户留存率均偏低。
  • 回旋镖效应:DeepSeek模型用户在流失后出现回流,原因是用户测试竞品后,确认其在专业性能、成本上更具优势。

成本与使用动态,市场分层显著

开源与闭源模型对比

  • 闭源模型:集中在高成本、高使用量的象限,主要处理高价值任务。
  • 开源模型:主要集中在低成本、高使用量区域,主要处理大量、成本敏感的任务。

成本-使用量四象限分布

  • 高级工作负载(高成本、高使用):技术、科学任务,用户愿为复杂推理(如系统架构设计)支付溢价。
  • 大众市场驱动(低成本、高使用):编程、角色扮演,开源模型凭借成本优势占据主导,用户参与度堪比专业任务。
  • 专业领域专家(高成本、低使用):金融、健康、法律,需求小众且高风险,对准确性要求极高。
  • 小众实用工具(低成本、低使用):翻译、trivia,需求已高度商品化,替代方案充足。

市场定价与用户行为特征

  • 需求弹性低:宏观层面,价格变化对使用量影响较小;微观层面,企业用户愿为关键任务支付高价(如GPT-4、Claude 3.7 Sonnet),开发者和业余用户则对成本敏感。
  • 杰文斯悖论迹象:低成本模型(如Gemini 2.0 Flash、DeepSeek V3)因效率提升,被广泛集成到更多任务中,最终总Token消耗量反而飙升。
  • 模型分层竞争:市场呈现四类原型——高端领导者(Claude系列)、高效巨头(Gemini Flash、DeepSeek V3)、长尾模型(Qwen 2-7B)、高级专家(GPT-5 Pro),差异化(延迟、上下文长度、可靠性)仍是核心竞争力。

讨论与启示

核心洞见

  • 多模型生态成主流:无单一模型可覆盖所有场景,闭源模型主导高价值任务,开源模型占据低成本高容量场景,开发者需灵活集成多模型。
  • 用途超越生产力:角色扮演等娱乐场景占比极高,凸显面向消费者的叙事、情感互动类应用潜力,模型评估需兼顾一致性与对话体验。
  • Agentic推理成新范式:从单回合生成转向多步骤规划、工具调用,评估标准从语言质量转向任务完成度。
  • 全球化与区域化并行:亚洲市场崛起,中国开源模型成为重要力量,LLM需适配多语言与文化场景。
  • 留存比增长更关键:“水晶鞋效应”下,精准匹配高价值工作负载的模型才能建立长期用户粘性。

局限性

数据仅覆盖OpenRouter平台,未包含企业本地部署、内部系统;部分分析依赖代理指标(如工具调用识别推理任务),结果具有指示性非绝对性。

未来趋势

LLM将深度融入全球计算基础设施,竞争焦点从模型参数规模转向任务完成效率、成本控制、场景适配性;智能体推理将逐步成熟,推动LLM从“生成工具”升级为“决策引擎”。

报告地址

  • 报告官网:https://openrouter.ai/state-of-ai
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章