实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了

今早,Anthropic 正式超越 OpenAI,在发布新估值的同时,还发布了前两天就开始有传闻流出的 Claude Opus 4.8,旗舰产品线的最新版本。我们第一时间上手,同时收集了用户社区的早期反馈。 

先说结论:更能干活了,但「性格」变得更难相处了。 

APPSO 实测:脑子升级了,嘴没有 

我们没有用 Anthropic 准备好的 benchmark 场景,而是拿了一个我们自己的真实需求来测:从一个在线协作平台里,把历史对话记录完整扒下来存档。数据量 30MB 以上,散落在前端接口的各个角落,没有现成的导出按钮。 

这类任务考验的不是模型会不会写代码,而是它能不能跟一个非专业开发者一起,从零摸索并完成任务。 

事情的起点是一个偶然的发现。测试的同事注意到,平台的前端界面在某些瞬间会闪过早期的历史记录,像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了 4.8,没有做任何技术描述,就是用大白话说「我看到了一些旧消息闪了一下就没了」。 

4.8 领会了他的意思,给出了正确的判断:数据通过接口请求加载,可以在浏览器的网络层截获。然后给了一套操作方案,指导个步骤:开发者工具,Network 面板,过滤关键词,定位目标请求。判断精准,思路清晰。 

但这里就出现了 4.8 的矛盾之处:思考能力很强,表达方式很……叨叨。 

每一步的技术方案都是对的,但每一步的解释都得铺垫个两三句。你问一个做法,它先给你来一段「当然可以!让我们一步步来」,再拉一个 bullet point 列表,然后在列表后面追加一段「补充说明」解释为什么要这么做。 

一个三句话能说清楚的事,它写了三屏, 我只是不会代码,又不是脑子飞了

发布时间:2026-05-29 22:19