实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了-新糖宝胶囊官方网站

今早，Anthropic 正式超越 OpenAI，在发布新估值的同时，还发布了前两天就开始有传闻流出的 Claude Opus 4.8，旗舰产品线的最新版本。我们第一时间上手，同时收集了用户社区的早期反馈。

先说结论：更能干活了，但「性格」变得更难相处了。

APPSO 实测：脑子升级了，嘴没有

我们没有用 Anthropic 准备好的 benchmark 场景，而是拿了一个我们自己的真实需求来测：从一个在线协作平台里，把历史对话记录完整扒下来存档。数据量 30MB 以上，散落在前端接口的各个角落，没有现成的导出按钮。

这类任务考验的不是模型会不会写代码，而是它能不能跟一个非专业开发者一起，从零摸索并完成任务。

事情的起点是一个偶然的发现。测试的同事注意到，平台的前端界面在某些瞬间会闪过早期的历史记录，像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了 4.8，没有做任何技术描述，就是用大白话说「我看到了一些旧消息闪了一下就没了」。

4.8 领会了他的意思，给出了正确的判断：数据通过接口请求加载，可以在浏览器的网络层截获。然后给了一套操作方案，指导个步骤：开发者工具，Network 面板，过滤关键词，定位目标请求。判断精准，思路清晰。

但这里就出现了 4.8 的矛盾之处：思考能力很强，表达方式很……叨叨。

每一步的技术方案都是对的，但每一步的解释都得铺垫个两三句。你问一个做法，它先给你来一段「当然可以！让我们一步步来」，再拉一个 bullet point 列表，然后在列表后面追加一段「补充说明」解释为什么要这么做。

一个三句话能说清楚的事，它写了三屏， 我只是不会代码，又不是脑子飞了

发布时间：2026-05-29 22:19