【导读】今天,全球大模型进入千万亿Token时代!仅OpenRouter一个平台,按约每百万Token1美元粗略折算,对应年化推理支出约10亿美元!老黄在GTC大会上提出的「Token经济学」,这几天更是刷屏全网。Token,已经成为AI时代的全新度量衡!
2026年3月,一个足以让整个硅谷和华尔街失眠的数字诞生了——
就在刚刚,全球大模型进入千万亿Token时代!
OpenRouter宣布,年化Token用量突破了一千万亿。
一千万亿,这不是什么天文物理的观测数据,也不是某个国家的GDP,只是某个AI模型聚合平台的年化Token吞吐量。
如果你对这个数字没有概念,我们可以换个算法:
按照目前市场约1美元/百万Token的平均价格计算,仅仅是一个聚合器背后的推理支出就高达10亿美元。
一个平台,就跑出了10亿美元的真金白银。全球的算力成本,已经进入一个全新阶段。
是的,Token正在成为这个时代的石油。
现在AI已经像电力一样,通过API接口,渗透进了每一条代码,每一封邮件,影响着这世界上的几乎每一个人。
如果说,2023年是模型觉醒的元年,那么在2026年的今天,我们已经站在了1,000,000,000,000,000这个数字面前。
这是人类文明史上最大规模的智力溢出。
当人们还在讨论AI是否是泡沫时,这15个零已经像海啸一样,冲垮了所有怀疑论者!
而就在这个数字公布的前两天,老黄站在GTC 2026的舞台上,用近两个小时的演讲,把Token这个词说了超过70次。
Token,成为串联整场演讲的锚点和主线。
老黄实际上在为一个新时代的经济底座命名。他给它取了个名字:Token经济学。
随后短短几天内,「Token工程」「Token经济学」的概念立马火爆全网!
Token到底是什么?
在老黄看来,Token已经不只是一个技术术语,它已经成为算力单位、信息单位、货币单位。
Token,已经成为一门大生意。老黄的这一判断,直接揭示了AI产业的底层逻辑——
Token,就是AI时代的核心经济标尺!
在此之上,全球AI产业的运行规则,或将被重塑。
Token,是信息单位,是AI思考的最小单元。
Token示意图
小到一次聊天问答,大到一部电影级AI视频的生成,再大到企业级模型的训练和推理,所有AI处理的信息都以Token来计量。
它是AI「思考」的原子,是智能经济最基础的度量衡。
在GTC上,老黄正式提出了「Token工厂」的概念:
未来的数据中心不再存数据、跑软件,而是生产Token。
你能产多少Token,就决定你能赚多少钱。
不过,功率是硬约束。1吉瓦的机房就是1吉瓦,物理定律不讲情面。
于是,现在的竞争核心就变成了,同样的电费,谁的每瓦Token吞吐量最高,谁的生产成本最低。
这其实跟传统制造业一模一样——同样一条产线,良品率高的赢。只不过「产品」从芯片变成了Token。
老黄在台上公布了Token分层定价:
低端约1美元/百万Token,中端3到6美元,高端工程级45美元,实时交互级150美元/百万Token。
跨度150倍,速度和质量决定价格。
老黄在台上亮出的进化曲线,思路很清晰:用极致的软硬件协同,一代一代碾压式压低成本。
Grace Blackwell在每个价格档位上把吞吐量比Hopper拉高35倍,全新的Vera Rubin再在Blackwell基础上翻5倍,加上首次集成Groq LPU后在超级档位再暴涨35倍。
短短两年,Token生成率从200万飙到7亿,350倍的史诗级跨越。
而当成本降了一个数量级之后,消耗就能再炸一个数量级。
这是最炸裂的一部分,也是老黄这次GTC真正引爆舆论的部分。
谁能想到,2024年底ChatGPT Pro推出200美元/月的会员时,大家还在围观「哪个大冤种会花这么多钱订阅AI」。
到了今天,Token的烧钱速度,从「让人肉疼」进化成了「让人心惊」。
老黄在台上宣布:
未来英伟达每个工程师都需要一份年度Token预算。
底薪几十万美元,我会在此之上再给大约一半价值的Token,让效率放大10倍。
不仅如此,Token预算也将成为硅谷新的招聘筹码。面试的时候工程师会问:我的offer带多少Token?
当年跳槽看股权、看RSU,现在还得看公司给不给配Token。智元预算(Token),正在从IT支出变成HR支出。
而推动这一切的最大变量,是Agent。
今年1月横空出世爆火的OpenClaw带火了整个智能体赛道。
一个配了Claude Opus 4.6的OpenClaw,随便对话几轮就烧掉几百人民币。
但老黄看到的是另一面。
Agent要跑就要烧Token,烧Token就要买算力,买算力就要预算。
于是Token预算出现在企业财务报表里。
每一家SaaS公司都将变成AaaS公司——Agentic as a Service。
推理服务商扩产能,云厂商建智元工厂,SaaS转型Agent服务,企业给员工配Token预算。从生产到消耗,闭环完整。
信息单位、算力单位、货币单位——三位一体。
Token不再是技术参数,而是AI时代的核心经济标尺。
一个算力中心生产Token,就等于在印钞。
云厂商推波助澜「养龙虾」,背后也是Token生意。
Token要生产,就需要工厂。Token要消耗,就需要Agent。
但如果工厂只存在于数据中心,Agent只跑在云端,这套经济学就永远是大公司的游戏。
而老黄要把它推到每一张桌面上。他的方式很简单——亲自送货上门。
2016年,首台DGX-1送给马斯克领导下的OpenAI。
深度学习刚从实验室走出来,绝大多数人还在观望。
老黄押的注:AI有未来。
2024年,首台DGX H200送给Sam Altman领导下的OpenAI。
ChatGPT席卷全球,Scaling Law当红,所有人在卷参数、卷规模。
老黄押的注:训练大基建时代来了,AGI狂飙。
2026年3月18日,GTC主题演讲刚过两天。
老黄扛着全球第一台DGX Station GB300,敲开了实验室的门。
这一次,收货的是Vibe Coding的提出者,是Agentic Engineering的领军人物,是Token经济最具象的消费者——Andrej Karpathy。
20 petaflops算力。784GB内存。万亿参数模型桌面直接起飞。
这台机器需要20安的电流,正是一座放在桌上的Token工厂。
Karpathy接过来,转手就在X上晒出了合照。
这机器简直太美了!
他们说有份神秘礼物,还悄悄透露得插20安的电源。
所以我当时就猜到,它绝对够给力。
这么猛的桌面超算,Karpathy只用来干一件事——养龙虾。
他当场宣布,这台怪兽的第一个任务是跑他的OpenClaw智能体「多比之爪」(Dobby the House Elf claw)。
是的,多比已经通过WhatsApp控制了Karpathy的整个房子。
灯、百叶窗、泳池/水疗、Sonos音响、安防、暖通空调,全都接管了。
一只龙虾,24小时在线,替主人管家。不眠不休,持续烧Token。
龙虾是Agent,Token是它的生产资料。
从马斯克到Altman再到Karpathy;从押注AI潜力,到押注训练大基建,到押注推理落地;
AI算力的重心,正在从训练迅速转移到推理。
而老黄说,这还只是开头。
有多少Token,就有多少智能。有多少美元,就有多少Token。
2015年GTC,老黄说深度学习将改变一切,台下大部分是游戏玩家。
2026年GTC,他站在3万人面前双手举过头顶握拳,自封智元之王(Token King)。
台下,全是欢呼。
如今,谁掌握更高效的Token生产能力,谁就掌握了AI时代最关键的服务产能。
这也正是云厂商近期密集押注AI推理基础设施的底层驱动。
这些以「养龙虾」为代表的新型算力租赁模式,背后都是Token服务生意。
中国模型的调用量已跃居全球首位
Token体系的深远意义,或许不在于它能否成为「货币」,而在于它正在重塑AI产业的定价权与竞争逻辑——
谁能以更低成本、更高效率生产Token,谁就在这场产业重构中占据上风。
参考资料:HZK
https://www.businessinsider.com/nvidia-ceo-jensen-huang-cant-stop-talking-about-tokens-2026-3
https://x.com/karpathy/status/2034321875506196585
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
发布时间:2026-03-20 17:41