Sam与Pichai扳手腕,图片由AI生成
一个月前,谷歌的Gemini 3超越所有竞争对手成为“世界最佳”,一个月后,OpenAI成立10周年这一天(美国时间12月11日),正式推出新一代AI模型GPT-5.2。
在这一关键的产品发布前,奥特曼为了应对主要对手的产品、挖角攻势,在内部拉响最高级别的“红色警报”。
所以,GPT-5.2的亮相,不仅关乎两家科技巨头的市场地位,更可能重新定义全球人工智能产业的竞争格局。
提前“内测”两周的HyperWrite联合创始人兼CEO马特·舒默评论说:能力强,尤其是推理能力强,但速度慢,且场景太单一,只能通过ChatGPT使用。
“这是世界上最好的模型,它可以用1个小时来处理难题,而且还能出色完成任务。我已离不开它。”
硅谷AI专家艾莉·米勒也是“内测用户”,她将GPT-5.2定义为“专业研究员”:对深度思考和复杂问题解决“严肃”、“专业”,但内容结构化,对追求快速、简洁和拟人化交流的用户不太友好。
“复杂的工作,脑暴,专业分析,我可能会用GPT-5.2。”
AI开发者Dp Singh也认同上述判断,强调AI首次能在日常专业任务(如制作演示文稿、电子表格、分析图表)中达到专家级产出水平,而不仅是演示场景。
GPT-5.2表现出来的与人类研究员平齐的专业能力,也引发了学界专家的关注。
宾夕法尼亚大学沃顿商学院教授、人工智能专家伊桑·莫利克说:“我从未如此确信过,即便今天人工智能发展不再继续,未来10年社会、经济仍然将面临巨大的变革,因为人类会想方设法利用模型的能力。当然,AI的进步也不可能就此结束。”
OpenAI对GPT-5.2的定位很明确,是“迄今为止最适合现实世界专业用途的模型”。
而证明其“能力”的指标,就是基准测试、跑分。
上面是OpenAI在X上晒出来的一张基准测试图(官方新闻稿甚至都没这张图)。
可以看到,在其自主研发的GDPval基准测试中,GPT-5.2在70.9%的明确任务上达到或超越了顶尖人类专家的水平,较其8月发布的GPT-5(38.8%)实现大幅跃升,也领先于Anthropic的Claude Opus 4.5(59.6%)和谷歌的Gemini 3 Pro(53.5%)。
但是话说回来,GDPval是OpenAI自己的基准测试,做不好才有问题。
更重要的是,基准测试这东西,在业界数量太多了,OpenAI这次引用了其中8项不同类型的,谷歌在Gemini 3的引用了可能有20项基准测试,这里就有一个操作空间了——我的哪些基准测试数据好就放哪个,其他就不放。
但如果我们把上面的表格转换成折线图,可以很清晰的看到,在多个基准测试中,OpenAI新发布的GPT-5.2各家最前沿的模型差别都不明显。
可以说,AI竞赛已从OpenAI一家独大,演变为多方巨头“短兵相接”的混战。
《纽约时报》也提及了这种看法,并且援引行业专家观点指出,“OpenAI所谓的AI基础模型与其他公司模型之间的技术差距实际上已经不复存在。”
如果说,基准测试不够直观,可以看看具体的案例,下图左是OpenAI官方提供的“海浪模拟器”网页,右边是相同提示词在Gemini中生成的页面,总的来说,各有优势。
前面提到过,因为竞争对手的步步紧逼,奥特曼在公司内部拉响“红色警报”。
从GPT 5.2和同行之间的差距来看,短期内估计没办法在产品和模型层面消除“红色警报。”
针对这个问题,被奥特曼一手挖过来的应用业务首席执行官菲吉·西莫说,“红色警报是向公司发出的一个信号,表明我们需要将资源集中在一个特定领域,这是一种确定优先级的方式。”
大意就是红色警报不是决战生死,只是让大家看到管理层表决心、定方向。实际上GPT-5.2在数月之前就已经研发,只是选择在这么一个时间点发布。
问题是,如果要决企业生死,除了这个不怎么能拉开差距的GPT-5.2,奥特曼的手中,还有没有比它更快的刀?
当然,比起在内部拉警报,奥特曼在外部的表现还是挺放松。
他在接受CNBC采访时表现出谨慎乐观:“Gemini 3对我们的业务指标产生的影响,可能比我们担心的要小。”他预计OpenAI将在2026年1月“以非常强势的地位”解除“红色警报”状态。
OpenAI刚刚迎来成立10周年,官网也发了一条视频,介绍这家公司从哪里来、到哪里去。
10年前,马斯克还在OpenAI项目组中活动的时候,黄仁勋送给OpenAI的世界上首台DGX-1服务器,各路大佬都在上面留下来签名,背景墙有一句格言“关键的问题不在于我们‘知道什么’,而在于我们如何‘运用所知’……我相信,我们每个人的责任都是——在行动时,要把自己当成全世界的命运都维系在自己肩上一样。”
十年来,OpenAI给世界送来了ChatGPT、Sora等震撼的产品,奥特曼在世界各地巡游布道,与各种硅谷巨头捆绑压铸算力,但是随着时间的推移,OpenAI从一开始的大幅度领先,到慢慢被对手追平甚至超越?
现在的OpenAI,处在一个茫然的十字路口。
成立初期,OpenAI声称其目标是“以最可能造福全人类的方式推进数字智能,不受产生财务回报需求的限制”。
斯塔福德郡大学的AI伦理学家凯瑟琳·弗利克也强调,这一创立理念已发生巨变。因为在OpenAI复杂的架构背后,存在着一个利益错综复杂互相绑定的营利性公司。
“现在我们有一个营利性公司,它已经完全卸下了对社会效益的任何责任,基本上接受了那种不惜一切代价增长的信条。”弗利克表示,原因在于OpenAI身处生成式AI革命的最前沿,而这里“有钱可赚”。
红色警报声中,OpenAI的第一要务是做产品体验,商业化优先级排在后面,因为这已经涉及到生死存亡,也关乎奥特曼更远大的理想——10年后可能会到达的超级智能,但这种愿景并非是OpenAI绝对的共识。
技术竞赛的背后,是OpenAI面临的巨大商业化与盈利压力。
奥特曼表示,OpenAI的目标是在2025年底实现相当于每年200亿美元收入的月度营收,但他承认距离整体盈利“仍有很长一段路要走”。
更引人注目的是,OpenAI承诺在未来几年投入高达1.4万亿美元用于计算基础设施建设,以支撑其AI雄心。
市场调研公司Sensor Tower的最新数据显示,2025年11月,ChatGPT全球月活用户总数为8.1亿,8-11月增速仅为6%,远低于2024年同期40%以上水平。此外,其全球的份额,四个月内也从38%降至35%。
目前,ChatGPT是OpenAI的营收生命线。每周超过8亿的活跃用户中,约6%每月支付20美元使用高级服务。
OpenAI正试图从免费用户中挖掘更多价值,探索的方向包括在ChatGPT中引入广告,以及开发交易分成模式(例如用户通过聊天机器人购物,OpenAI从中抽成)。
西莫还证实,OpenAI计划在推出“成人模式”(可能允许成人内容)前,先引入用户年龄预测功能以保护青少年,“成人模式”预计明年第一季度上线。
与此同时,OpenAI正积极进军企业软件市场,将自身定位为同时服务消费者与企业两大客户群体的公司。GPT-5.2在编码、法律、金融等专业领域的性能提升,正是为了吸引高价值的企业客户。
然而,在这一市场,OpenAI将直接面对谷歌、微软等巨头的激烈竞争,后者能够将AI工具与成熟的办公软件生态(如Google Workspace、Microsoft 365)深度捆绑。
营利性能帮助OpenAI获得源源不断的资金,以继续它帮助人类的远大理想,但这个过程中也会衍生出一系列的安全、伦理方面的问题。
就在GPT-5.2发布之前,OpenAI遭遇一项新的诉讼,指控ChatGPT与一名心理困扰用户的互动间接导致了康涅狄格州的一起谋杀-自杀惨剧。需要注意,这已经不是第一起类似的诉讼。
OpenAI回应称事件“令人心碎”,并承诺持续改进系统对心理困扰迹象的识别和应对能力,引导用户寻求现实帮助。
此外,《纽约时报》起诉OpenAI及其合作伙伴微软侵犯版权的案件仍在进行中,凸显了AI训练数据合法性这一根本性行业难题。
这场OpenAI与谷歌之间的较量,早已超越单纯的技术参数比拼,演变为一场涵盖技术迭代、生态构建、商业模式、安全治理和资本耐力的全方位战争。
在技术层面,基准测试的“榜首”争夺日趋白热化。
OpenAI研究副总裁艾丹·克拉克虽未透露GPT-5.2的具体训练突破,但承认在预训练等基础环节持续改进,回应了业界对“预训练潜力是否耗尽”的质疑。
在生态层面,OpenAI推出自有浏览器,意在挑战谷歌的Chrome,试图构建从底层模型到上层应用的完整生态闭环。而谷歌则凭借其庞大的现有产品矩阵,试图通过整合创造协同优势。
AI模型评估平台LMArena公司Wei-Lin Chiang指出:“通用模型的用户增长已触及阶段性瓶颈,下一个增长极必然来自垂直领域。”
他还强调,当前竞争的核心已非单纯用户扩张,而在于谁能率先在医疗、金融等关键行业建立起可靠、高效的解决方案,真正实现技术能力向产业价值的转化。
最后在战略文化层面,OpenAI从非营利研究机构向高估值商业实体的快速转型,以及其对盈利的迫切追求,正在重塑其内部文化。一些早期员工曾引以为傲的、与谷歌等广告驱动模式的区别,正在现实压力下变得模糊。
“这是一场将在多条战线上展开的竞赛。”追踪最新AI技术性能的公司Vals AI首席执行官拉扬·克里希南的论断精准概括了当前AI霸主之争的复杂性。
总体来看,GPT-5.2的发布是OpenAI在专业领域一次有力的技术宣示,但它远非终局——没能和对手拉开差距,甚至OpenAI自己都说要到2026年1月份才能消除警报声。更重要的是,即便短期内“红色警报”可以暂时解除,但整个AI行业最高强度的竞争警报,已然长鸣。
本文来自微信公众号“腾讯科技”,作者:苏扬 无忌,36氪经授权发布。
发布时间:2025-12-12 18:13