作为 Anthropic 有史以来向公众发布的最强 AI 模型,Fable 5 仅“上线”了短短三天。它在聊天机器人竞技场排行榜上登顶,在编程基准测试中以两位数的优势碾压 OpenAI 的 GPT 5.5,并首次让付费订阅者接触到 Mythos 级别的推理能力。然后,在 6 月 12 日,特朗普政府下令 Anthropic 将其下架。
Anthropic 公开辩称该指令是不相称的,所引用的漏洞并不能证明完全撤下该模型是合理的。当前,Fable 5 能否回归取决于 Anthropic 与政府就出口管制分类进行的谈判。
昨日,据外媒报道,Anthropic 的一位知情人士透露,在白宫命令实质上迫使 Anthropic 的旗舰产品下线后,该公司高级成员正在华盛顿特区与特朗普政府努力达成协议。报道还指出,特朗普政府对 Anthropic 处理越狱投诉的方式感到不满,声称 Anthropic 并未“以严肃的态度进行沟通”。
但知情人士透露,自白宫上周五首次主动联系以来,Anthropic 的技术人员已与白宫官员举行了虚拟会议。双方的消息人士均表示,他们渴望解决这个问题。
此外,究竟是何原因导致 Anthropic 模型下架,当前还有多重消息。亚马逊似乎正是向白宫指出 Anthropic 的 Fable 5 和 Mythos 5 模型存在所谓潜在安全漏洞的公司之一。此前外媒的报道称,上周四晚至周五上午,亚马逊与其他五家公司通知白宫,它们已成功演示了那种令人担忧的越狱操作,其 CEO 安迪·贾西已就此与特朗普政府成员进行了接触。
根据 Semafor 另一则援引匿名消息源的报道,白宫还担忧“一个与中国有关的组织”已获得了一个 Mythos 级模型的访问权限。Semafor 指出,Anthropic 不允许来自中国的用户访问其 AI 模型。
对此,亚马逊的一位发言人表示:“政府就潜在安全风险向我们咨询并不罕见。当这种情况发生时,我们不会透露这些讨论的细节。”Anthropic 的一位发言人表示,白宫在围绕 Fable 越狱和出口管制进行的对话中,并未提及中国访问 Mythos 的问题,这家 AI 公司禁止来自中国境内访问其产品。
据了解,Fable 5 和 Mythos 5 是所谓的“Mythos 级”模型,它们基于与 Claude Mythos Preview 相同的核心技术构建,是付费 Claude 账户用户可访问的公开产品。Fable 5 于 6 月 9 日发布,是 Anthropic 首款向公众开放的 Mythos 级别模型。它提供了一百万 token 的上下文窗口和 128000 个输出 token。Anthropic 原定向 Pro、Max、Team 和 Enterprise 订阅者免费提供该模型至 6 月 22 日,但这个促销窗口被政府指令在仅三天后就缩短了。
Mythos Preview 是 Anthropic 在 4 月发布的模型,当时该公司声称该模型过于强大,因极易被滥用可能危及全球网络安全,并存在其他所谓的危险,故而采取了严格的发布控制,仅限少数几家特定公司使用,不予发布。被下架的 Fable 5 和 Mythos 5 模型,本应是 Mythos Preview 的“驯化版”,通过广泛且显性的护栏措施使其安全。
上周五下午,Anthropic 接到了白宫的电话,告知其让 Fable 5 和 Mythos 5 继续在线构成了一项未具体说明的“国家安全威胁”,并要求公司在 90 分钟内关闭它们。目前尚不清楚接下来的几个小时内发生了什么,但不久后,出口管制令显然通过一封信件送达 Anthropic:要求 Anthropic 不得允许非美国公民使用其最顶尖的先进 AI 模型产品。
这意味着,即使是 Anthropic 的外籍员工也禁止使用这些模型。特朗普政府援引一个越狱漏洞作为撤下 Fable 5 及更广泛的 Mythos 5 模型系列的理由。数小时后,这些模型便下线了。
6 月 14 日,特朗普的顾问 David Sacks 在 X 平台上发帖,为白宫决定实施出口管制的前因后果提供了新的信息。据 Sacks 指控,一个与 Anthropic 和白宫都有合作、且高度可信的合作伙伴在测试 Fable 时,发现了针对其的越狱方法。当特朗普政府将越狱情况告知 Anthropic 时,Anthropic 联合创始人兼 CEO Dario Amodei 表示该越狱并非严重风险,并拒绝修复。
推文中写道,“过去,Anthropic 一直强调安全必须是首要任务,并且非常认真地对待安全。但在这次事件中,Anthropic 将消费模型的持续提供置于安全之上。白宫现在的希望是:Anthropic 解决安全问题,出口管制令被解除,Fable 重新向大众发布。”
这并非 Anthropic 首次与白宫发生冲突。该公司曾游说反对特朗普政府抢先制定州级 AI 监管法规,并且因在将其模型用于自主武器问题上陷入僵局,正在起诉五角大楼。Sacks 表示,先前的这些冲突并未影响政府对 Mythos 的决定。“那些试图转移话题、将这一行动与之前事件联系起来的人是错误的。白宫重视 Anthropic 的技术能力,并认为这个问题虽然严重,但应该能够轻松解决。”
对于白宫调查结果的严重性,Anthropic 此前明确公开提出异议,称所识别的漏洞是微小的、公开已知的,并且 GPT 5.5 无需任何越狱技术即可实现。
“我们审查了该特定技术的演示,该技术被用于识别少量此前已知的、微小的漏洞。这些漏洞似乎都相对简单,我们发现其他公开可用的模型也能够在无需越狱的情况下发现它们。”Anthropic 在 6 月 12 日的声明中指出。他们表示,公司为 Fable 建立了强大的安全护栏,大大减少了 Fable 被用于网络安全相关任务(以及其他)的可能性,以至于许多用户抱怨其过于宽泛。
Anthropic 还称,特朗普政府仅向他们提供了口头证据,证明存在一种潜在的、狭窄的非通用越狱,本质上就是要求模型读取特定的代码库并修复任何软件缺陷。他们审查了一份可能是政府指令依据的报告,并已证实报告中所展示的能力水平在其他模型(包括 OpenAI 的 GPT-5.5)中广泛存在,并且每天都被维护系统安全的安全防御者所使用。
而当前这场风波带来的实际后果之一是,那些正在评估 Fable 5 以用于生产环境的开发者和研究人员不得不退回到 GPT 5.5 或 Anthropic 早期的 Opus 模型。
据了解,Fable 5 与 GPT 5.5 两个模型之间的基准差距并不小。在衡量模型解决开源代码库中真实软件工程问题能力的 SWE-Bench Pro 上,Fable 5 得分 80.3%,而 GPT 5.5 为 58.6%,相差 22 个百分点。在同一基准的精调子集 SWE-Bench Verified 上,Fable 5 达到了 95.0%。对于编码密集型工作流来说,这种降级是显著的。SWE-Bench Pro 上 22 个百分点的差距,代表着一个能解决五分之四真实软件问题的模型与一个能处理大约五分之三问题的模型之间的区别。
编程基准测试也展现了类似的差距。Fable 5 在 Code Arena 上领先 98 个 Elo 分,得分为 1665,而 GPT 5.5 为 1501。在旨在测试最具挑战性编程任务的 FrontierCode Diamond 基准上,Fable 5 得分 29.3%,而 GPT 5.5 仅为 5.7%。在更广泛的聊天机器人竞技场排行榜上,Fable 5 位居第一,GPT 5.5 位列第四。
GPT 5.5 也有优势领域。在评估交互式终端编码任务(而非代码库级别的问题解决)的 Terminal-Bench 2.0 上,GPT 5.5 得分为 82.7%,而 Fable 5 约为 88.0%。这里的差距较小,而且该基准测试的技能不同:实时执行命令和调试,而不是阅读和修补大型代码库。此外,GPT 5.5 每百万输入 token 收费 5 美元,每百万输出 token 收费 30 美元,是 Fable 5 定价(分别为 10 美元和 50 美元)的一半。对于运行高容量应用、且性能差异不如成本关键的开发者而言,即使两种模型都可用,GPT 5.5 是更实际的选择。
https://thenextweb.com/news/anthropic-fable-5-vs-openai-gpt-5-5-benchmark-comparison
https://www.semafor.com/article/06/13/2026/white-house-move-to-limit-anthropic-linked-to-concerns-about-chinese-access-to-mythos
本文来自微信公众号“AI前线”,作者:华卫,36氪经授权发布。
发布时间:2026-06-15 22:18