免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

2025年,企业级AI的主战场在哪里?

发布日期:2025-12-12 20:38:15 浏览次数: 1521
作者:产业家

微信搜一搜,关注“产业家”

推荐语

2025年企业级AI将如何重塑产业格局?这份基于100万亿真实token的研究报告揭示关键趋势。

核心内容:
1. 大模型从聊天工具向多模型协同决策层转型
2. 真实业务场景中的AI使用地图与商业价值分析
3. 开源/闭源模型在未来产业链中的竞争格局预测

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

产业互联网第一媒体。产业家


大模型不再只是“会说话的搜索引擎”,而正在变成一个多模型协同的推理与决策层。在这个层上,谁能先踩到自己的“玻璃鞋时刻”,谁就有机会在未来几年的 AI 生态中,拥有属于自己的一块稳固地盘。


来源|A16z

编译|斗斗

出品|产业家


过去一年,AI 产业正在经历一次结构性转折:模型不再主要用于通用聊天,而是逐渐渗入研发、运营、客服、创意内容、工具链自动化等真正具有业务价值密度的生产环节。然而,关于一个最根本的问题——现实世界的大模型到底被企业和个人“用来做什么”——产业界反而缺乏基于大规模真实数据的认知。


在产品演示、基准测试和公开发布的光鲜叙事之外,真实的业务工作负载(workloads)、真实的模型选择偏好(model selection)、真实的付费结构(spend distribution)与长期留存(retention),才是决定 AI 产业形态的主导力量。


在OpenRouter与a16z联合发布的《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究报告中,首次基于超过 100 万亿个真实推理 token 做了系统分析,为我们揭开了真实世界的 AI 使用地图。


本篇文章在尽可能完整保留原报告洞见的基础上,对技术趋势、需求结构、模型竞争格局与商业含义进行了重新梳理,力求呈现一幅更贴近产业决策、更贴近产品研发、更贴近实际工作负载结构的 AI 落地图景。


如果你关心未来几年企业级 AI 的主战场在哪里?哪些模型会成为长期基础设施,哪些只是短期热点?开源、闭源、中外模型将在产业链中扮演怎样的角色?如何理解 AI 模型的真实需求曲线那么,下面这篇基于百万亿级数据的综合分析,将为你提供一份难得的产业级参考底图。


以下内容为《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究报告原文的二次梳理。


前言:


在很长一段时间里,大语言模型更像一个“超级输入法”。它接受一段文本,再根据概率分布,把后面的字一句句补全。哪怕我们引入链式思维、RAG、工具调用,看上去模型好像在“思考”,本质上也只是一次前向推理的复杂包装。


这种状态在 OpenAI 推出 o1 推理模型之后出现了明显变化。o1 和之后的一系列推理模型,不再满足于“直接吐答案”,而是把思考过程内化为多步推理:先在内部生成、修正和筛选中间推理,再对外给出结论。也正是在这一波模型迭代的同时,现实世界的使用场景开始急剧扩张,从聊天写作延伸到编程辅助、复杂工具编排和自动化代理。


可惜,与热闹的讨论相比,我们一直缺少系统的数据来回答一个根本问题:这些模型到底在被怎样使用?


为了解答这个问题,研究者基于 OpenRouter 平台,分析了超过一百万亿 token 的真实调用记录,覆盖数百个模型、全球用户和近一年的时间跨度。文章后面的所有结论,都建立在这套大样本的统计之上。


要理解这些结论,先要搞清楚数据是如何收集的。


OpenRouter 是一个多模型聚合平台,汇集了六十多家提供商、三百多个模型,对外提供统一接口。每一次调用都会留下结构化记录:使用的是哪一个模型,输入和输出的 token 数量是多少,请求来自哪个计费地区,有没有触发工具调用,是否采用流式输出,以及延迟和错误等元数据。


出于隐私考虑,研究者看不到具体的提示词和回答内容,只能看到这些“壳信息”。为了推断“这次调用是用来干什么的”,他们从所有请求里抽取了大约 0.25% 的样本,把提示和回复送进 Google 的文本分类系统,根据层级标签把每次对话归到某个使用类别,比如编程、角色扮演、翻译、教育、成人内容等等,然后再把细标签归并为少数大类。通过这种方式,报告得以在不泄露用户具体内容的前提下,还原真实世界的使用结构。


在模型维度上,作者又做了几层区分:一是开源和闭源,看模型权重是否公开;二是中国模型和其他地区模型,根据开发主体所在地域划分;三是按参数规模,把模型分成小、中、大三个档次。用户地域则按计费地址而非 IP 判断,以获得更稳定的统计口径。


而基于这套标注体系,AI落地产业的图景逐渐显现


开源 vs 闭源:

开源已经拿走了三分之一的盘子


有了数据基础,接下来我们先看最直观、争议也最大的一个问题:开源模型究竟用得多不多?


在总 token 量维度上,闭源模型依然是绝对主力,大约占到 70% 左右;但另一头,开源模型在一年之内的份额一路上涨,到 2025 年底已经稳定在 30% 左右。也就是说,开源不再是“小圈子爱好者玩具”,而是实打实承载了全球近三分之一的大模型推理量。



这种增长并不是线性慢涨,而是和几次关键的开源发布紧密绑定:Llama 3.3 70B、DeepSeek V3 / R1、Kimi K2、GPT-OSS 系列等模型的发布,都会在图表上带来清晰的“阶梯式上升”;更关键的是,这些台阶不是“一阵风”,在发布之后使用量能长期维持在高位,说明它们真的被纳入了稳定的工作流和产品。


在开源阵营内部,“中国模型”是一个非常亮眼的变量。



按年平均来看,中国开源模型大概占了全平台 13% 的 token 份额,与非中国开源模型几乎打平。有些周,甚至能达到全平台 接近 30% 的 token 使用量。这背后,主要是 DeepSeek、Qwen 等家族在频繁迭代、持续扩容:每次新模型发布,都会带来一波新流量,并把旧流量迁移过来。


这意味着,中国模型不再只是本地市场的小生态,而已经成为全球开源版图中的重要一极。


如果只看开源模型内部份额,可以看到明显的“多极化”趋势:2024 年底,DeepSeek V3 + R1 在开源流量里几乎是霸榜状态;但随着 Qwen 3 系列、Kimi K2、GPT-OSS 等新选手不断加入,到 2025 年底,没有任何一个开源模型再能拿到超过 25% 的开源 token;Top 5–7 个模型的份额差距在缩小,大家一起瓜分市场。



这也给了模型开发者一个清晰信号:开源世界“爆款频出,但生命周期并不长”。想长期留在榜首,一次性做一个很强的模型远远不够,持续高频迭代才是刚需。


模型大小之争:

中等规模模型逐渐成为“甜点位”


开源世界经常会被问一个问题:到底要做多大的模型?这份报告也给出了一些行为层面的答案。


论文按参数量把开源模型分成三类:小模型:<15B、中模型:15–70B、大模型:≥70B。



对比“模型数量”和“实际使用份额”之后,可以看出几个趋势。


一是小模型数量很多,但使用份额在下降。各种 LoRA、专用小模型层出不穷;但它们往往只在极小的垂类或短期试验里出现,生命周期短,很难形成持续大规模使用。


二是中等规模模型使用份额快速上升。这一档被认为找到了比较好的“model–market fit”:能力足够强,能覆盖大部分复杂任务;成本又比超大模型低很多;像 Qwen2.5 Coder 32B、Mistral Small 3、GPT-OSS 20B 都是典型代表。


三是大模型并未出现单一王者。在 ≥70B 这个档位上,并没有哪一个模型吃掉绝大部分流量;Qwen3 235B、GLM 4.5 Air、GPT-OSS-120B 等都保持了一定份额。



换句话说,“小而美”很难吃到大众市场,“巨大无比”又太贵,中间这档综合能力和成本的模型,正在成为真正的流量承载者。大模型则更多被用在评估、重要决策和极难任务上。


开源模型拿来干什么?

一半陪你玩,一半帮你写代码


知道了“谁在用什么”,下一个问题自然是:他们用模型来做什么?


在所有开源模型的任务分布中,两个类别格外突出。一是Roleplay(角色扮演),大约占到了一半以上的 token;二是Programming(编程),大约占 15–20%。



这和大众想象中“模型主要用来效率办公、写邮件”的印象相当不同。


真实情况是大量用户在用开源模型做角色扮演、剧情创作、人物对话、同人故事甚至游戏系统;另一个大头则是代码生成、调试和辅助编程。


从产品视角看,这不难理解,对于“虚构内容”和“个性化体验”,开源模型限制更少,也更容易定制特定人设;对于编程,开源模型可以被深度内嵌到本地开发工具和自建基础设施里,利于控制成本和隐私。


如果单独抽出“中国开源模型”来看,结构又有些不同。角色扮演仍然是最大的类别,占比约33%,但编程和技术领域的使用量合计已占多数,达到39%。



这说明,在全球开源生态里,中国模型更倾向于被用在技术与工程方向:写代码、改脚本、看日志、做基础设施相关操作,而不仅仅是闲聊或娱乐。


进一步,如果只看“编程”这一种任务,格局又有所不同。闭源模型整体上依然承担了大部分编程流量,尤其是 Anthropic 的 Claude 系列,一直是代码类任务中的头号选手;在开源阵营内部,2025 年中期,中国开源模型一度在编程流量上占绝对优势(比如 Qwen Coder 系列);到 2025 年底,欧美开源(LLaMA Code、GPT-OSS 等)追上甚至在部分时间段反超。



而在“角色扮演”这一类中,格局则更偏向开源与闭源两极并存,早期主要由闭源模型承载;随着开源模型能力和自由度的提升,后来角色扮演流量开始大量迁向开源,呈现出几乎对半分的状况。



综合看下来,开源模型在“高自由度娱乐/创作”场景已经与闭源平分秋色,在高精度编程与严肃推理上仍处于追赶,但进展极快。


推理模型与工具调用:

LLM 正在变成“多步决策引擎”


随着任务复杂度的提高,单轮“问一句,答一句”的模式逐渐显得吃力。因此,接下来这几个现象几乎是顺理成章的:推理模型普及、工具调用变多、上下文变长。


在时间维度上看,真正优化过“多步推理”的模型起初份额很小,甚至只是实验性的存在。但到 2025 年底,这类模型已经承担了超过 50% 的 token 流量。



这些模型包括:xAI 的 Grok Code Fast 1、Grok 4 Fast;Google 的 Gemini 2.5 Pro / Flash;OpenAI 的 gpt-oss-120b 等。



这表明,开发者在默认选择模型时,越来越偏向“会多步思考”的版本,哪怕它们的延迟稍高、成本略贵,也愿意为稳定的复杂推理能力买单。


工具调用(tool-calling)是另一条清晰的上升曲线。论文通过“finish reason = tool_call”的比例来估算工具调用的使用程度,结果显示工具调用的占比在一年之内稳步提升,只有在某些大客户短期爆量时出现尖峰。



早期,只有极少数模型(如 gpt-4o-mini、部分 Claude 3.5/3.7)承担了几乎全部工具调用流量;随着时间推进,越来越多模型实现了工具调用能力,新版本的 Claude、Gemini、xAI 模型也逐渐接力。



这也反过来说明对企业级、高价值场景来说,“没有稳定的工具调用”,已经成了很多模型的硬伤。没有 tool calling,模型就很难被纳入严肃的自动化工作流。


如果再看输入输出长度,就能更直观地感受到任务在变复杂。平均提示长度在一年内增长了约 4 倍,从 1,500 token 左右涨到 6,000;输出长度也从 150 涨到约 400,但增幅相对小,说明更多的 token 被用来提供上下文,而不是多写字。


更极端的是,在编程类任务中,序列长度往往是整体平均值的 3–4 倍。这很容易理解:看代码、分析日志、比对配置,本身就是对“长文本理解”和“局部推理”的考验。



结合上述三个趋势,推理模型、工具调用、长上下文,我们就能看出一个清晰的图景。


典型的大模型请求,正在从“回答一个问题”,转变为“驱动一个代理”:它读一大段上下文,调用工具干具体事,在内部做多轮思考,最后给出一个结构化的决策或结果。


任务类别全景:

编程和娱乐是两个超级引擎


当我们把所有模型(而不仅仅是开源)一起看,就会发现一些更宏观的趋势。


在所有类别中,编程(Programming)的增长最为夸张,2025 年初,编程相关请求大约只占所有 token 的 1 成出头;到 2025 年末,编程类任务已经吃掉了超过一半的 token。



这背后是 IDE 集成、代码助手、自动化研发流水线的全面铺开:IDE 原生集成 LLM 成为常态;自动生成单元测试、重构代码、跨项目理解代码库变成频繁操作;持续交付中的一些环节开始由模型辅助甚至主导。


在不同提供商中,分工也逐渐清晰。Anthropic 的 Claude 系列长期拿着 60% 以上的编程流量,是工程师群体的首选;Google、OpenAI、MiniMax 等各自占据部分份额,但整体来看,“写代码”作为 LLM 最重要的生产力场景之一,已经毫无疑问。



再看 Roleplay 类别,我们会发现一个有趣的结构,其中接近 60% 的 token 来自 “Games / Roleplaying Games”;另外约 15% 来自写作者资源(Writers Resources),又有 15% 来自成人内容(Adult)。



换句话说,很多用户并不是在随意闲聊,而是在进行“严肃的幻想活动”,比如写小说、写剧本、做世界观设定;扮演游戏角色、跑团、半即时叙事;以及探索成人幻想。


这部分需求在传统软件世界里几乎没有对标产品,如今被统统吸进了 LLM 里。它的商业化路径也许和“生产力工具”完全不同,更接近内容平台、游戏和虚拟陪伴。


此外,还有一大批“既高价值又高风险”的长尾领域,那就是健康(Health):子类别高度分散,从疾病咨询到心理支持无所不包;金融、法律、学术研究,这类使用量不低,但尚未形成像编程、角色扮演那样清晰的主流模式。


这些领域有一个共同特点:对正确性要求极高、对错误容忍度极低。这也解释了为什么它们在成本上会偏高,但使用模式仍然比较谨慎、碎片化,大家都在试水,但还不敢“全身跳下去”。


不同模型提供商的“画像”:

谁在服务谁?


把任务类别再按模型提供商拆开,就能看到每家厂商在现实世界中的“定位”。

整体来看,大致有几种典型画像。


一是Anthropic(Claude),这类使用结构高度偏向编程和技术任务,Roleplay、闲聊类内容占比极小,整体气质非常“工程师 / 企业级”。



二是Google(Gemini 系列),这类任务分布更均衡,翻译、科学、法律、技术、知识问答都有;编程占比反而在缓慢下降,更像是“通用信息引擎”和“知识问答中枢”。



三是xAI(Grok),这类早期几乎所有流量都集中在编程;直到开放免费后,才逐渐在 roleplay、学术问答等方向扩展;展现出从“硬核工程工具”向“通用助手”扩张的轨迹。



四是OpenAI,一开始,科学类问题占了很大比例(尤其是和 Machine Learning & AI 相关);随着新模型推出,编程 + 技术任务比例持续提高,年末已经超过一半;Roleplay 和日常聊天类请求占比显著下降,整体使用呈现“专业化”趋势。



还有就是以DeepSeek、Qwen为代表的中国厂商。DeepSeek更加偏向 roleplay 和轻量聊天,编程与科学比例相对较低,但有缓慢抬头;Qwen恰好相反,40–60% 的 token 用在编程上,roleplay 和 science 的占比随时间波动。



从这些画像可以看出,多模型生态之所以存在,不只是因为“大家都想分一杯羹”,而是因为不同模型确实在现实中服务了不同的用户群体和任务结构。这也是“多模型编排”未来越来越重要的原因,即没有一个模型能在所有维度都最好。


全球视角:

谁在用?用的是什么语言?


模型用得多不多,只是一个维度;另一个关键信息是:这些模型被哪些地区、哪些语言的人在使用?


按消费支出来看北美依然是最大的单一区域,但多数时间已低于全球总支出的 50%;欧洲稳居第二,长期维持在中高两位数百分比;亚洲是增长最快的地区,从最初约 13% 的份额,逐步提升到接近三分之一,已经与欧洲、北美形成三足鼎立的格局。



其中很大一部分增长,正是随着亚洲本地模型(尤其是中国模型)发布而被激发出来的——当本地语言、本地上下文、本地价格更有优势时,区域市场的活跃度自然会被抬高。


虽然地区分布在多极化,但在语言层面,模型使用仍然高度集中,英语占到了约 83% 的提示;简体中文约 5%;俄语、西班牙语和其他语言合计构成剩余的一小部分。



这一结构一方面反映了当前模型训练数据和能力的现实,那就是英语仍然是效果最好、资源最丰富的语言;另一方面也说明了未来的机会空间:多语言、本地化模型还有很大的成长余地。


留存与“玻璃鞋效应”:

好模型不是“涨一波就完事”


有了使用量,还不够理解一个模型的真实生命力,关键在于:用户会不会留下来?


论文通过 cohort 分析,把用户按“首次使用某模型的月份”分组,观察每一组在此后各个月份里还有多少用户还在继续使用。这时会发现一个特别有意思的现象,那就是大部分 cohort 的留存曲线在前几个月都掉得很快;但通常会有一两条“早期 cohort”的曲线明显高于其他批次,而且能 长期维持在 30–40% 的高留存。


比如,Gemini 2.5 Pro 的 2025 年 6 月 cohort、Claude 4 Sonnet 的 2025 年 5 月 cohort,都展现出这种“高而稳定”的留存特征。



作者用“Cinderella Glass Slipper(灰姑娘的玻璃鞋)”来形容这种现象。简而言之,就是市场上存在着一批高价值、长期的任务,一直找不到“刚刚好”的模型;某一天,一个新模型出现,能力和价格恰好匹配这些任务需求,那一批用户就“试鞋成功”;一旦这类任务在某模型上跑通,上下游工具、流程、组织习惯都会围绕它搭建,迁移成本迅速变高;即便后来有性能略强的竞品出现,这批用户也不会轻易挪窝。


因此,一个模型是否真正抓住了高价值工作负载,不看一时的使用峰值,而要看它是否拥有这样的“玻璃鞋 cohort”。


在 DeepSeek 的留存曲线里,还出现了少见的“boomerang(回旋镖)效应”,即某些 cohort 在一开始几个月快速流失;但过了一段时间后,留存曲线又出现回升,说明原本流失的用户又回来用这款模型。



这很可能意味着一部分用户被其他新模型吸引走,评估试用一圈之后发现,某些指标(比如成本、速度或特定任务上的表现)DeepSeek 仍然更适合自己的工作流,于是又迁回。


这种“出走–回归”的行为,恰恰佐证了:行为数据不只是一次性偏好,而是持久比较之后的选择结果。


成本与使用:

不是“谁便宜就用谁”


最后一个关键问题是:价格到底有多重要?


大部分人很容易直觉地认为 AI 已经卷成了价格战,但报告的数据给出了更细致的答案。


把不同任务类别画在“每百万 token 成本(横轴,log)”和“总使用量(纵轴,log)”上,可以大致分成四类。



右上是高成本、高使用,例如 Technology、Science 等技术和科研类任务;左上是低成本、高使用,例如编程和角色扮演这两个流量怪兽;右下是高成本、低使用,例如金融、健康、学术、营销等专业场景;左下是低成本、低使用,例如翻译、法律咨询、冷知识查询等工具化场景。



特别夸张的是 Technology 类别,它在成本上是明显的离群点,但使用量依然很高,意味着当任务本身价值特别高(比如系统架构设计、复杂技术咨询)时,用户对价格极不敏感,反而更在乎模型的可靠性和能力上限。


如果换个角度,把每个模型作为一个点画在“成本 vs 使用”的图上,会看到模型价格下降 10%,使用量平均只上升不到 1%,总体相关性非常弱。但在聚类上却很清晰,即闭源模型集中在“高价、高使用”区域;开源模型则更多分布在“低价、中高使用”区域。



这说明闭源模型主要在抓高价值任务,用户愿意为其更高的性能和可靠性付钱;开源模型则更多承载了高体量、成本敏感的任务,比如大规模角色扮演和非关键生产环境中的编程。


同时也能看到某些很贵的模型使用量一般,却深度服务极少数关键任务,它们的价值不能简单用“token 数”来衡量;大量“便宜但一般”的模型,没有形成工作负载–模型的强匹配,即使价格压得很低,也不会自然跑出使用量。


一句话总结就是,价格重要,但远没有“是否真正解决了某类高价值任务”重要。


整体启示:

多模型、代理化和“玻璃鞋时刻”


把所有这些数据和现象放在一起,可以提炼出几个对未来几年都很重要的结论。


首先,未来是一个稳定的多模型世界。不同模型在不同任务上形成各自的“使用画像”;闭源抓高价值,开源吃高体量,各有生存空间;对应用开发者来说,押宝一个“终极大一统模型”风险太高,更现实的选择是:做模型无关,做多模型编排。



其次,真实世界的使用远不止“生产力工具”。在开源世界,超过一半的流量来自角色扮演、叙事创作和娱乐;这些场景需要的是持续性、趣味性、一致的人设,而不仅是事实正确;这意味着,我们需要全新的评估维度和产品形态,而不能只用“考试分数”和“基准测试”衡量模型。


另外,编程与代理式推理是关键战场。编程类任务成为增长最快的品类,序列最长、工具调用最多;推理优化模型已经占据过半流量,代理式使用成为主流;对模型和基础设施来说,长上下文、工具调用鲁棒性和整体工作流延迟的重要性,已经超过“单次回答的华丽程度”。


最后,护城河不在价格,而在“玻璃鞋时刻”。真正能留下来的,是那些第一次“刚刚好”地解决了一类工作负载的模型;一旦形成了关键任务上的深度绑定,后来的玩家哪怕性能略强、价格更低,也不一定能撬走用户;对模型提供方来说,重点不在于持续压价,而在于找到自己最擅长的任务带,把这部分用户服务好,保证可靠性和持续迭代。


结语


通过对超过 100 万亿个 token 的真实调用数据进行拆解,这份研究把我们常常“凭感觉”讨论的许多问题——开源 / 闭源之争、推理模型的价值、多模型生态、价格战与留存、编程和娱乐的相对重要性——都拉回了实证层面。


如果只用一句话来概括这份报告的内核,大概会是大模型不再只是“会说话的搜索引擎”,而正在变成一个多模型协同的推理与决策层。在这个层上,谁能先踩到自己的“玻璃鞋时刻”,谁就有机会在未来几年的 AI 生态中,拥有属于自己的一块稳固地盘。





最新视频号内容推荐
产业AI大模型
《财务大模型,产业路向何方?》
《沸腾的大模型:谁在成为主角?》
《大模型落地金融业,想象力在哪?|产业特稿》
《重新理解百度智能云:写在大模型开放后的24小时》
《一所南方学校,遇上AI的60天》
《金蝶,「起舞」在大模型时代》
产业数字化
数字化大势下,科创板IPO的“紧箍咒”
透视京东,和隐藏起来的200个上升密码
云上管车背后:透视数字化时代的企业内功
透视云测试:技术、产业、降本增效下的数字化之战
产业SaaS
《2021年SaaS行业八大趋势|盘点》
美团阿里鏖战,餐饮 SaaS无「终局」

金蝶腾「云」,产业互联「结网」

腾讯加「杠杆」,SaaS开团战

产业供应链
产业互联网时代,谁在重写供应链?
牵手国资背后,再看苏宁的零售产业边界
产业硬科技
《云从「敲门」科创板》
《物联网,一场上云的巨型战役》
《华为:用鸿蒙HarmonyOS2.0讲的新故事》
《国产芯片战场:掣肘、决心和看得见的未来十年》


© 往期回顾


产业家网全新上线

© THE END


本文由产业家原创出品,未经许可,请勿转载。
/
欢迎爆料


产业家报道联系微信号:15201450756

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询