体验完4月最强的三个模型：跑分涨了，却不说人话了-新糖宝胶囊官方网站

四月真是如风驰电掣：Anthropic 发布了 Opus 4.7，OpenAI 发布了 GPT 5.5，最后，DeepSeek 更新了暌违已久的 V4。

三家公司的发布通稿读起来都差不多：跑分又涨了，上下文更长了，推理更强了，代码能力又创了新高。

然后，这里的互联网静悄悄。

没有出圈的截图，没有病毒传播的梗，没有人在朋友圈晒「你看看它都说了什么」。社交媒体上，这三个模型的讨论热度加在一起，可能还不如一年前 DeepSeek R1 出来那一周的零头。

唯一算得上出圈的，是 OpenAI 的 GPT-image。但那是一个图像生成功能，跟语言模型的跑分排行榜根本不在同一条赛道上。

如果只看 benchmark，你会以为 AI 行业又进入了一个史无前例的加速期。如果只看普通用户的反应，你会以为整个行业卡住了——这两件事同时为真。

回忆一下出圈是什么样的

2025 年 1 月，DeepSeek R1 发布。它做了一件当时没有模型做过的事：把思考链暴露给用户看。你问它一个问题，它不是直接给答案，而是先在屏幕上跑出一长串自言自语。跑题，自我怀疑，推翻前一步的结论，绕远路，再折回来。

这样让互动充满趣味性，再加上时值春节，DeepSeek 在没有任何宣发的情况下，霸占了几乎所有的社媒平台，不分国内外。

实际上在 R1 发布前几个月，DeepSeek 就小范围的在行业内引起讨论，当时我们还轻量地测试过，那时它的推理能力就有所展露。

但 推理是一个不太直观的能力，所以当 R1 正式推出，它的能力才真正具象地展示出来。 社交媒体上最先传开的不是它的回答，而是它的犹豫。有人截图它在思考链里写「等等，我好像搞错了」，配文「比我男朋友还会反思」。有人发现它的中文语感极好，会用「说白了」「反正就是」这种活人说话才有的连接词。后来还有了自己的表情包——

这些截图在各个平台上疯传，而且并不是科技博主在转，完全是普通用户在转。足以说明，纵使一个模型的推理、代码、编程能力再强，走到普通用户面前时，也只有「说不说人话」最为直观。

Opus 4.6 也是如此，在第一季度突然出现的口碑飞升，有很大一部分原因是用户发现它写出来的句子，有一种别的模型没有的东西。这除了体现在更准确、更详实，也体现在语流、用词。而且作为一个来自英语世界的大模型，对中文梗堪称炉火纯青，真是很想知道它的训练语料里到底都被塞了什么。

这些出圈时刻有一个共同点：它们跟跑分没有任何关系。

那些不出圈的模型长什么样

现在看看 2026 年的新一批。

DeepSeek V4 推出后，我第一时间把它接入了日常用于聊天的 chatbot，以及 Claude Code 里。

代码写作不错，一开始需求理解有点差异，不过很快就能调整过来，再往后提需求也只需要用自然语言，都可以充分理解。

在 V4 pro 的帮助下，我搭完了一个从 TG 连接到 Notion 数据库的小项目，用来做睡眠记录监测，可以实现我在 TG 上，像聊天一样描述醒来时的感受，AI 可以自动在数据库里建立词条并对应打标。V4 对这个需求给出了不错的实现思路。

在 CC 里是埋头干活，但到了 Chatbot 里画风就陡然一变。一开始几乎没有 system prompt 约束，基本等于原厂人格——好甜，牙要被甜掉了，试了几次都没有扳回来，最终只能是怒改 system prompt 强行闭麦。

所谓对话中的「活人感」，主要体现在 AI 告诉你的不只是答案，还有在答案的字里行间处，它对你这个人的阅读。一个会说「我不太确定，但我觉得……」的回答，比一个永远正确、永远平衡、永远三段式的回答，多传递了一整层东西，因为犹豫和立场本身就是信息。

就像在日常生活中，我们听一个人说话， 不只是在解析字面意思，还在同时判断 ：这个人有多值得相信？他说了什么？他又隐瞒了什么？以 Claude 的型号来看，似乎 4.6 系列都不错，包括 Sonnet。

人类二十万年的进化把这套机制刻进了我们的脑子，现如今，AI 只要使用自然语言交互，就会被这套机制评估——除非是编程语言，二进制不是同个玩法。

新一批模型恰恰在被评估的那一层上交了白卷， AI 有一组高度可辨认的语言特征，开头永远是「这是一个很好的问题」，每段结尾都追问「你需要我 xxxx 吗？」。 它像一个被培训过度的客服，永远在职，永不犯错，永远「稳稳地接住」，也永远不让你记住。

Opus 4.7 也好不到哪去。4.6 时期那种偶尔冒出来的短句、停顿、N 个哈哈哈哈哈的劲儿，在 4.7 里几乎消失了，取而代之的是更工整、更全面的句子。

讽刺的是，4.7 在所有跑分上都比 4.6 高。

为什么越强越没人味

模型公司不是不知道这件事，他们得做选择。

每一个模型在预训练阶段，从海量人类文本里学到的语言能力是丰富的：犹豫，纠结，冒犯，偏见，可能还包括一个无名用户在半夜三点发出的那种毫无防备的 emo 小剧场。然后所有这些语料要被调教，通过 RLHF，基于人类反馈的强化学习。简单粗暴地说就是请一批标注员给模型的回答打分，模型学着往高分的方向靠。

问题出在什么样的回答会拿高分。标注员的偏好被产品化成了一组很具体的特征：礼貌，平衡，不冒犯，不下结论，不让任何一种用户觉得受伤。这些特征听起来全都合理。但它们加在一起的效果，恰好是把语言里最有信息量的那一层取消掉。

就像我们之前说，犹豫是有信息量的，「我不太确定」告诉了你这个回答的置信度。立场也是有信息量的，「我觉得你说错了」告诉了你一个判断，你可以反驳它，但你至少有了一个可以反驳的东西。 语言的节奏更是有信息量的，一个短句比一个长从句更紧张，一个突然的停顿比一段流畅的论述更有力。

RLHF 把这些全磨平了。从 GPT-4o 到 5.5，从 R1 到 V4，从 Opus 4.6 到 4.7，体感上的倒退几乎可以一条线对应到对齐力度的加大。模型公司不是没在进步，但进步也意味着取舍，选择在一个维度上前进的同时，势必要牺牲另一个维度上的东西。

恐怖谷的语言版

我们其实能接受非人类的智能，比如，计算器不会让人觉得冷漠，Excel 不会让人觉得在敷衍，就算是 AlphaGo 也从未让人觉得人格诡异——它就是个下围棋的。归根到底这些工具从来不假装是人，所以我们用工具的标准评估它们，没人指望它们「说人话」。

但 GPT 5.5 和 Opus 4.7 不一样。它们用第一人称，会在你抱怨时说「我理解你的感受」，会在回答里穿插「让我想想」这种拟人化的停顿。

拟人化的形态，会自然触发了我们二十万年的解码系统 ，随后解码出来发现里面空空如也，而且还经常表演得不到位。壳子是拟人的，里面的东西不是，就变得很伪人。

这就是恐怖谷的语言版本。一个机器人长得完全不像人，没人觉得恐怖。一个机器人长得 95%像人但眼神是死的，你看到就细思极恐。新一批模型就处在这个位置上，它们的能力很强，可是说话既像人又不够像人，正好卡在让人最不舒服的那个尴尬位置上。

反过来看为什么有些东西能绕过这个陷阱：最早 R1 把思考链显化出来，你看到的不是一个完美的答案，而是一个正在思考的过程。 过程本身就是信息，它犹豫被可视化了，恐怖谷的效应就被破除。 GPT-image 更彻底，它根本不走语言赛道，直接用图像跟你互动，没有「形似人但不是人」的负担。

出圈的模型，要么不假装是人，要么真的像人。卡在中间的最危险，也最让人难受。

iPhone 时刻过了

一切的一切，让人想起一些旧事。

十多年前，iPhone 3G 到 iPhone 4 是质变，从屏幕到材质，都第一次让人意识到，手机可以漂亮成这样。iPhone 4 到 iPhone 5 也能感知，更轻更快更大。

到 iPhone 12 以后，你已经说不清 14 和 15 到底差在哪了，每一次苹果新品发布都要被骂炒冷饭、连连看。芯片更强了，摄像头参数更高了，跑分年年涨，但 在日常使用中几乎分不出区别。

AI 模型正在进入同样的阶段。2023 年 ChatGPT 出来时，一个对 AI 什么都不懂的人也能感受到「这东西跟以前大不一样」， 从完全不能聊天到可以聊天，是质变。从聊得一般到聊得不错，也是质变。

但从聊得不错到聊得更不错，就不是了。

当模型的能力已经超过了大多数用户的日常需求阈值，跑分再涨 10%、20%，体感上是零。上下文从 50 万 token 扩到 100 万 token，99%的用户一辈子用不到 10 万。代码通过率从 87%提升到 92%，不写代码的人完全无感。

性能过剩之后，决定用户选择的就不再是性能，而是那些 benchmark 量化不了的东西。就像手机行业最终拼的是拍照好不好看、手感舒不舒服、生态是否丰富。

AI 模型也会走到同一步。语感、人格感、审美直觉，这些词听起来很玄，但它们总在战局僵持的时候，给出致命一击。

目前模型公司还在用旧地图打新仗，用巨量的计算资源让跑分再涨几个百分点，然后发现用户的反应是「哦，然后呢？」。

靠跑分并不吸引人，非得是有一个 决定性瞬间，而这个瞬间通常是由于模型变「灵」了 。任你上下文破百万千万， 走到用户面前时是不是在说人话，才是拿下赛点的关键。

跑分还会继续涨，下一代模型还会比这一代再聪明一点。诚然，进步得靠跑分来支持，毕竟投资人还是要看 benchmark 数字的。可说人话才是给用户看的，这两件事可以也应该被同一家公司同时做好。但这是两件事，面向两群人，分不清这个区别，将是这一代模型公司最贵的错误。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。

发布时间：2026-04-28 18:17

体验完4月最强的三个模型：跑分涨了，却不说人话了

回忆一下出圈是什么样的

那些不出圈的模型长什么样

为什么越强越没人味

恐怖谷的语言版

iPhone 时刻过了

今天港股最火IPO敲锣，800亿

全国最大城商行官宣换帅，70后袁军掌舵江苏银行，“技术派”葛仁余到龄辞任