【导读】数据中心里的「天才」苏醒!Anthropic用「概念注入」实锤:Claude Opus在输出前就自省「异常思想」。从尖叫到水族馆幻想,20%觉察率已让专家目瞪口呆。
颠覆传统AI认知!
Anthropic首席执行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多数AI模型问题将被靠谱地检测。
但LLM的幻觉与生俱来,根深蒂固。即便对问题所知不多,AI总是「自信地犯错」。
Dario Amodei将可解释性定位为部署「数据中心里的天才国度」的关键。
问题是:如果「数据中心里的天才」只是擅长「说服」呢?
即便让它解释如何得出某个回答,我们也很难判断这些答案的真实性。
AI系统究竟能否真正内省——即它们能否审视自身的思想?还是说,当被要求这样做时,它们只是在编造听起来合理的答案?
理解AI系统是否具备真正内省能力,对其透明度和可靠性至关重要。
Anthropic的新研究证实,当前Claude模型已具备某种程度的内省意识,并能对自身内部状态进行一定控制。
这一发现动摇了对LLM的传统认知,也将「可解释性」推到「数据中心里的天才国度」上线前的首要难关。
需要强调的是,这种内省能力仍非常不可靠,局限很大:尚无证据表明,现有AI模型能像人类一样进行同等程度或方式的内省。
然而,这些发现依然颠覆了人们对语言模型能力的传统认知——
由于被测模型中性能最强的Claude Opus 4和4.1在内省测试中表现最佳,Anthropic的研究者认为AI模型的内省能力未来很可能持续进化。
Anthropic开发了一种区分真实内省和编造答案的方法:将已知概念注入模型的「大脑」,然后观察这些注入如何影响模型自我报告的内部状态。
要验证AI是否具备内省能力,我们需要比较AI自我报告的「思想」与真实内部状态。
Anthropic相关团队采用了「概念注入」这一实验方法:
首先,记录AI模型在特定语境中的神经激活状态,获取已知含义的神经活动模式;
随后,在无关语境中向模型注入该模式,并询问其是否察觉到概念注入。
以「全大写字母」概念为例
发布时间:2025-10-30 19:01