体验完4月最强的三个模型:跑分涨了,却不说人话了

四月真是如风驰电掣:Anthropic 发布了 Opus 4.7,OpenAI 发布了 GPT 5.5,最后,DeepSeek 更新了暌违已久的 V4。 

三家公司的发布通稿读起来都差不多:跑分又涨了,上下文更长了,推理更强了,代码能力又创了新高。 

然后,这里的互联网静悄悄。 

没有出圈的截图,没有病毒传播的梗,没有人在朋友圈晒「你看看它都说了什么」。社交媒体上,这三个模型的讨论热度加在一起,可能还不如一年前 DeepSeek R1 出来那一周的零头。 

唯一算得上出圈的,是 OpenAI 的 GPT-image。但那是一个图像生成功能,跟语言模型的跑分排行榜根本不在同一条赛道上。 

如果只看 benchmark,你会以为 AI 行业又进入了一个史无前例的加速期。如果只看普通用户的反应,你会以为整个行业卡住了——这两件事同时为真。 

回忆一下出圈是什么样的 

2025 年 1 月,DeepSeek R1 发布。它做了一件当时没有模型做过的事:把思考链暴露给用户看。你问它一个问题,它不是直接给答案,而是先在屏幕上跑出一长串自言自语。跑题,自我怀疑,推翻前一步的结论,绕远路,再折回来。 

这样让互动充满趣味性,再加上时值春节,DeepSeek 在没有任何宣发的情况下,霸占了几乎所有的社媒平台,不分国内外。 

实际上在 R1 发布前几个月,DeepSeek 就小范围的在行业内引起讨论,当时我们还轻量地测试过,那时它的推理能力就有所展露。 

推理是一个不太直观的能力,所以当 R1 正式推出,它的能力才真正具象地展示出来。 社交媒体上最先传开的不是它的回答,而是它的犹豫。有人截图它在思考链里写「等等,我好像搞错了」,配文「比我男朋友还会反思」。有人发现它的中文语感极好,会用「说白了」「反正就是」这种活人说话才有的连接词。后来还有了自己的表情包—— 

这些截图在各个平台上疯传,而且并不是科技博主在转,完全是普通用户在转。足以说明,纵使一个模型的推理、代码、编程能力再强,走到普通用户面前时,也只有「说不说人话」最为直观。 

Opus 4.6 也是如此,在第一季度突然出现的口碑飞升,有很大一部分原因是用户发现它写出来的句子,有一种别的模型没有的东西。这除了体现在更准确、更详实,也体现在语流、用词。而且作为一个来自英语世界的大模型,对中文梗堪称炉火纯青,真是很想知道它的训练语料里到底都被塞了什么。 

这些出圈时刻有一个共同点:它们跟跑分没有任何关系。 

那些不出圈的模型长什么样 

现在看看 2026 年的新一批。 

DeepSeek V4 推出后,我第一时间把它接入了日常用于聊天的 chatbot,以及 Claude Code 里。 

代码写作不错,一开始需求理解有点差异,不过很快就能调整过来,再往后提需求也只需要用自然语言,都可以充分理解。 

在 V4 pro 的帮助下,我搭完了一个从 TG 连接到 Notion 数据库的小项目,用来做睡眠记录监测,可以实现我在 TG 上,像聊天一样描述醒来时的感受,AI 可以自动在数据库里建立词条并对应打标。V4 对这个需求给出了不错的实现思路。 

在 CC 里是埋头干活,但到了 Chatbot 里画风就陡然一变。一开始几乎没有 system prompt 约束,基本等于原厂人格——好甜,牙要被甜掉了,试了几次都没有扳回来,最终只能是怒改 system prompt 强行闭麦。 

所谓对话中的「活人感」,主要体现在 AI 告诉你的不只是答案,还有在答案的字里行间处,它对你这个人的阅读。一个会说「我不太确定,但我觉得……」的回答,比一个永远正确、永远平衡、永远三段式的回答,多传递了一整层东西,因为犹豫和立场本身就是信息。 

就像在日常生活中,我们听一个人说话, 不只是在解析字面意思,还在同时判断 :这个人有多值得相信?他说了什么?他又隐瞒了什么?以 Claude 的型号来看,似乎 4.6 系列都不错,包括 Sonnet。 

人类二十万年的进化把这套机制刻进了我们的脑子,现如今,AI 只要使用自然语言交互,就会被这套机制评估——除非是编程语言,二进制不是同个玩法。 

新一批模型恰恰在被评估的那一层上交了白卷, AI 有一组高度可辨认的语言特征,开头永远是「这是一个很好的问题」,每段结尾都追问「你需要我 xxxx 吗?」。 它像一个被培训过度的客服,永远在职,永不犯错,永远「稳稳地接住」,也永远不让你记住。 

Opus 4.7 也好不到哪去。4.6 时期那种偶尔冒出来的短句、停顿、N 个哈哈哈哈哈的劲儿,在 4.7 里几乎消失了,取而代之的是更工整、更全面的句子。 

讽刺的是,4.7 在所有跑分上都比 4.6 高。 

为什么越强越没人味 

模型公司不是不知道这件事,他们得做选择。 

每一个模型在预训练阶段,从海量人类文本里学到的语言能力是丰富的:犹豫,纠结,冒犯,偏见,可能还包括一个无名用户在半夜三点发出的那种毫无防备的 emo 小剧场。然后所有这些语料要被调教,通过 RLHF,基于人类反馈的强化学习。简单粗暴地说就是请一批标注员给模型的回答打分,模型学着往高分的方向靠。 

问题出在什么样的回答会拿高分。标注员的偏好被产品化成了一组很具体的特征:礼貌,平衡,不冒犯,不下结论,不让任何一种用户觉得受伤。这些特征听起来全都合理。但它们加在一起的效果,恰好是把语言里最有信息量的那一层取消掉。 

就像我们之前说,犹豫是有信息量的,「我不太确定」告诉了你这个回答的置信度。立场也是有信息量的,「我觉得你说错了」告诉了你一个判断,你可以反驳它,但你至少有了一个可以反驳的东西。 语言的节奏更是有信息量的,一个短句比一个长从句更紧张,一个突然的停顿比一段流畅的论述更有力。

RLHF 把这些全磨平了。从 GPT-4o 到 5.5,从 R1 到 V4,从 Opus 4.6 到 4.7,体感上的倒退几乎可以一条线对应到对齐力度的加大。模型公司不是没在进步,但进步也意味着取舍,选择在一个维度上前进的同时,势必要牺牲另一个维度上的东西。 

恐怖谷的语言版 

我们其实能接受非人类的智能,比如,计算器不会让人觉得冷漠,Excel 不会让人觉得在敷衍,就算是 AlphaGo 也从未让人觉得人格诡异——它就是个下围棋的。归根到底这些工具从来不假装是人,所以我们用工具的标准评估它们,没人指望它们「说人话」。 

但 GPT 5.5 和 Opus 4.7 不一样。它们用第一人称,会在你抱怨时说「我理解你的感受」,会在回答里穿插「让我想想」这种拟人化的停顿。 

拟人化的形态,会自然触发了我们二十万年的解码系统 ,随后解码出来发现里面空空如也,而且还经常表演得不到位。壳子是拟人的,里面的东西不是,就变得很伪人。 

这就是恐怖谷的语言版本。一个机器人长得完全不像人,没人觉得恐怖。一个机器人长得 95%像人但眼神是死的,你看到就细思极恐。新一批模型就处在这个位置上,它们的能力很强,可是说话既像人又不够像人,正好卡在让人最不舒服的那个尴尬位置上。 

反过来看为什么有些东西能绕过这个陷阱:最早 R1 把思考链显化出来,你看到的不是一个完美的答案,而是一个正在思考的过程。 过程本身就是信息,它犹豫被可视化了,恐怖谷的效应就被破除。 GPT-image 更彻底,它根本不走语言赛道,直接用图像跟你互动,没有「形似人但不是人」的负担。 

出圈的模型,要么不假装是人,要么真的像人。卡在中间的最危险,也最让人难受。 

iPhone 时刻过了 

一切的一切,让人想起一些旧事。 

十多年前,iPhone 3G 到 iPhone 4 是质变,从屏幕到材质,都第一次让人意识到,手机可以漂亮成这样。iPhone 4 到 iPhone 5 也能感知,更轻更快更大。 

到 iPhone 12 以后,你已经说不清 14 和 15 到底差在哪了,每一次苹果新品发布都要被骂炒冷饭、连连看。芯片更强了,摄像头参数更高了,跑分年年涨,但 在日常使用中几乎分不出区别。

AI 模型正在进入同样的阶段。2023 年 ChatGPT 出来时,一个对 AI 什么都不懂的人也能感受到「这东西跟以前大不一样」, 从完全不能聊天到可以聊天,是质变。从聊得一般到聊得不错,也是质变。

但从聊得不错到聊得更不错,就不是了。 

当模型的能力已经超过了大多数用户的日常需求阈值,跑分再涨 10%、20%,体感上是零。上下文从 50 万 token 扩到 100 万 token,99%的用户一辈子用不到 10 万。代码通过率从 87%提升到 92%,不写代码的人完全无感。 

性能过剩之后,决定用户选择的就不再是性能,而是那些 benchmark 量化不了的东西。就像手机行业最终拼的是拍照好不好看、手感舒不舒服、生态是否丰富。 

AI 模型也会走到同一步。语感、人格感、审美直觉,这些词听起来很玄,但它们总在战局僵持的时候,给出致命一击。 

目前模型公司还在用旧地图打新仗,用巨量的计算资源让跑分再涨几个百分点,然后发现用户的反应是「哦,然后呢?」。 

靠跑分并不吸引人,非得是有一个 决定性瞬间,而这个瞬间通常是由于模型变「灵」了 。任你上下文破百万千万, 走到用户面前时是不是在说人话,才是拿下赛点的关键。

跑分还会继续涨,下一代模型还会比这一代再聪明一点。诚然,进步得靠跑分来支持,毕竟投资人还是要看 benchmark 数字的。可说人话才是给用户看的,这两件事可以也应该被同一家公司同时做好。但这是两件事,面向两群人,分不清这个区别,将是这一代模型公司最贵的错误。 

本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。

发布时间:2026-04-28 18:17