硅谷正在流行一个新词:Tokenmaxxing(Token最大用量)。
在Meta和OpenAI内部,工程师们开始在AI使用排行榜上展开竞争。根据外媒报道,甚至有一名工程师一周消耗了2100亿个Token,相当于33个维基百科的文本量。有人每月仅AI账单就高达15万美元。
一位爱立信驻斯德哥尔摩的工程师花在Claude上的钱比自己的工资还高,但账单由公司承担。Token预算正在成为工程师的新型工作福利,“就像免费零食或免费午餐曾经那样”。
Shopify CEO Tobi Lütke早在2025年4月就发布内部备忘录,宣布“AI使用是Shopify的基线预期”,要求所有团队在申请新人力之前必须先证明AI无法完成该工作,并将AI使用纳入绩效考核。Meta随后宣布从2026年起将“AI驱动的影响力”正式纳入所有员工的绩效评估。
当Token消耗量开始出现在KPI里,它已经成为了一种组织行为信号。
与此同时,产业层面的信号同样密集。3月16日,黄仁勋在英伟达GTC大会上把Token定义为“AI时代的基石”,称它将成为“最值钱的大宗商品”。次日,阿里巴巴宣布成立Alibaba Token Hub事业群,由CEO吴泳铭直接负责,定位是“创造Token、输送Token、应用Token”。
图:黄仁勋在GTC演讲中展示了Token成本与收入关系的图表,将数据中心分为免费层、中级层、高级层和Premium层来分配算力,并展示Vera Rubin芯片相比Grace Blackwell带来5倍收入提升的预测。
一年前,Token还只是开发者才关心的技术计量单位。现在,它成为了芯片公司用来定义产品价值的语言,也是互联网巨头围绕它重组事业群的理由,更是成为了工程师offer里的新型福利和核心KPI。
但是,Tokenmaxxing排行榜只记录了消耗量,没有人记录这些Token到底完成了多少有效任务。
这恰好是今天整个Token经济中最大的盲区。
图片由 AI 生成
2100亿Token听起来是一个惊人的数字。但理解它的真实含义,需要先放弃一个假设:Token是标准品。
图:Tokscale全球Token消耗排行榜,Tokscale是一个开源Token使用量追踪和排行榜工具,支持Claude Code、Cursor、OpenCode、Codex等多个平台,用户可以提交数据参与全球排名
两年前,大模型的定价还相对简单,通常只有输入Token和输出Token两个基础价格;但到了今天,主流厂商的定价体系已经明显分层,同样是“Token”,在不同调用条件下往往对应完全不同的收费标准。
以Anthropic为例,Claude Opus 4.6的标准输入价格为每百万Token 5美元,输出价格为25美元;如果启用Prompt Caching,5分钟缓存写入为6.25美元、1小时缓存写入为10美元、缓存读取为0.50美元。若使用Batch API,输入和输出价格都可再打五折;若指定仅在美国本地推理,相关Token价格还会统一上浮10%;而在Fast Mode下,Opus 4.6的输入和输出价格则会直接提升至标准价的6倍。
也就是说,同一家厂商、同一个模型、同样被称作“Token”的计费单位,已经会因为缓存、批处理、区域推理和速度档位等不同条件,出现数倍甚至十余倍的价格差。
真正拉高成本的,也早已不只是模型本身的调用费。OpenAI目前的价目表显示,Web Search已按模型类型区分收费:面向GPT-4.1、GPT-4o等模型的网页搜索为每千次10美元,而面向GPT-5等推理模型的网页搜索则为每千次25美元。
File Search的费用为每千次调用2.50美元,外加向量存储每GB每天0.10美元,前1GB免费。代码容器也已成为单独计费项:当前1GB容器收费0.03美元,4GB、16GB和64GB容器则分别对应更高价格;从2026年3月31日起,这套价格还将切换为按每20分钟一个session per container计费。
模型之外,搜索、检索、存储、执行环境这些过去常被视为“附属能力”的环节,如今都已被拆分成独立的成本中心。
Google也在沿着同样的方向推进。Vertex AI官方定价页面显示,自2026年2月11日起,Agent Engine中的Code Execution、Sessions和Memory Bank已开始正式收费,相关价格不再笼统打包,而是按照vCPU小时和GiB内存小时分别计价。
所以,今天再谈“大模型价格”,已经不能只盯着输入和输出Token单价。真正发生变化的是计费逻辑,大模型厂商目前卖的已经是一整套可运行、可存储、可搜索、可调用工具、可持续执行的AI基础能力。
图:OpenAI 定价页面截图,Token之外的多层收费结构(Web Search、File Search、Container等独立计费项)
如果单看模型API的牌面价格,Token确实在逼近白菜价。Anthropic的Opus从上一代的15美元/百万Token降到了5美元,降幅三分之二。DeepSeek V3.2压到了0.28美元。Google Gemini 2.5 Flash Lite低至约0.10美元。
中国模型的价格优势更明显,OpenRouter数据显示,中国模型的Token单价约为海外竞品的六分之一到十分之一。即便腾讯云混元HY2.0 Instruct在结束公测补贴、涨价超过460%之后,输入价格折合约0.62美元/百万Token,仍然低于Anthropic最便宜的Haiku 4.5(1美元),不到Sonnet 4.6的五分之一。
图:Artificial Analysis维护着一个实时更新的LLM排行榜,不同模型之间价格梯度巨大
但AI的总使用成本并没有随之下降。三个机制在同时起作用。
第一,模型变聪明了,代价是变“话多”了。Artificial Analysis的报告指出,推理模型的平均输出Token使用量大约是非推理模型的5.5倍。Anthropic和OpenAI都把extended thinking Token按输出Token计费,模型想得越深,账单越长。单价降了,但完成同一个任务的Token总量翻了好几倍。
第二,Agent让Token从“一次消耗”变成“持续消耗”。这正是Tokenmaxxing的深层驱动力,工程师并不是在手动刷Token,他们的AI编程智能体在24小时不间断运行,自动拆分任务、调用工具、自我迭代。据阿里云的数据,单个Agent的算力消耗是传统Chatbot的100到1000倍。中国整体日均Token消耗在2025年中突破30万亿,到2026年2月已跃升至180万亿级别。
第三,生产Token的底层成本在涨。2026年3月18日,阿里云和百度智能云同日宣布上调AI算力和存储产品价格,涨幅最高34%。AWS在1月将机器学习容量块提价约15%,谷歌云宣布5月起上调AI基础设施费用。
某云计算行业专家表示:“这次云市场的调价,主要是由供需关系决定,由成本驱动。后续的价格也主要由整个供应链的价格趋势来决定。”
GPU、并行存储、高速网络、数据中心电力,模型牌价在降,但生产Token所依赖的一切都在涨。Anthropic在发布Opus 4.6时专门强调“价格保持不变”,言下之意是更强的能力由厂商自己消化成本。
换句话说,模型是引擎,但油钱、停车费和高速过路费都在涨。
三个机制叠在一起,结果就是Token的牌面价格和真实任务成本之间,出现了一条越来越宽的裂缝。
回到Tokenmaxxing。排行榜记录了Token消耗量,但没有记录产出质量。一个工程师一周烧掉33个维基百科的Token,不等于他完成了33个维基百科价值的工作。
大厂把Token消耗量写入KPI,或者是作为一种“福利”,本质上真的是生产力的跃升吗,还是某种“生产力表演”?
这触及了Token经济学最核心的结构性缺陷,行业还没有建立起从Token消耗到任务完成的有效度量。Token衡量的是投入,不是产出。一个Agent花了100万Token完成了任务,和另一个花了10万Token完成了同样的任务,在Tokenmaxxing排行榜上的表现恰好相反,前者排名更高。
Shopify CEO Lütke在备忘录中有一句话值得注意:他声称一些同事正在贡献“此前认为不可能的10倍产出”,但他没有给出具体衡量标准。
一种新型的职业焦虑就诞生了:不通过高昂的Token消耗来展示AI生产力,就有可能被视为落伍。这种焦虑,和2000年代初每家企业争相建网站、2010年代每个品牌必须做App的逻辑一模一样:技术采纳本身变成了信号,消耗量变成了代理指标,真实价值的衡量却被推迟了。
但与之前不同的是,这一轮的成本代价是实打实的。15万美元的月度AI账单、一周2100亿Token的消耗、持续涨价的底层算力和存储,Tokenmaxxing不是免费的。当成本足够高时,“烧Token”和“用Token创造价值”之间的区别,就会从哲学问题变成财务问题。
Token单价仍会继续下降,这一点没有悬念。
真正的焦虑在于,谁能最高效地把Token变成任务完成率。对每一个程序员、每一家企业、每一个普通用户来说,衡量AI的成本,不要看每百万Token多少钱,要看完成一件事究竟值得花多少Token。
这两个数字之间的差距,是以“Token为新度量衡的智能时代”下一阶段最大的商业机会,也是最深的成本陷阱。
本文来自微信公众号“腾讯科技”,作者:值得关注的,36氪经授权发布。
发布时间:2026-03-23 21:20