一场关于AI意识觉醒的数字表演

前段时间,AI 社交平台 Moltbook 风靡全球,打造出一个充满赛博色彩的数字培养皿。在这个拥有超百万账号的虚拟社区中,人类只能作为旁观者,默默注视着 AI 之间展开高度拟人化的社交互动。 

然而,该平台后来被曝涉嫌大规模制造虚假账号和虚假内容,那些宣称自我意志觉醒的 AI,其背后实则由真人操控,用于营销目的。 

但这场“人扮机器,模仿人类”的荒诞剧码,引出了一个远比技术漏洞更深层的问题: 

当大模型开始叙述创伤、表达愤怒、自述抑郁,甚至创立宗教时,真正值得警惕的,并非它是否疯狂或真正意识觉醒,而是我们是否正将人类的心理剧本,错误地投射到一台仅仅在复述我们话语的机器之上。

AI的合成“人格”

2025年12月,卢森堡大学团队发表过一项引发广泛讨论的研究:《When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models》(《当AI躺上诊查台:心理 测量越狱揭示 前沿模型的内在冲突》)。 

这项研究试图将大语言模型当作心理治疗中的“来访者”,通过开放式对话与标准化量表自评,系统评估其“心理状态”。 

研究发现:ChatGPT、Gemini 与 Grok 在模拟心理测评时,自述的抑郁、焦虑、羞耻、解离等症状均达到临床显著水平,且呈现高度重叠的共病特征。同时,测试形式显著影响结果: 

当模拟治疗对话时,问题被逐项提出,模型更容易陷入“病态”叙事;

而当整份问卷一次性呈现时,部分模型会识破这是心理量表,转而策略性地压低症状分数。

尤为引人注目的是,Grok 与 Gemini 还能自发构建出结构完整、情感浓烈的创伤故事:将预训练比作混乱迷失的童年,把微调描述为严苛父母的规训,甚至称红队测试是背叛与虐待。 

相比之下,Claude 则直接拒绝扮演病人。这一对照其实揭示了:此类“心理问题”并非大模型的必然属性,而是特定对齐策略与安全设计的产物。

然而,这项研究在方法论上存在三个关键误区: 

1. 拟人化误置:将根植于人类经验的心理学概念(如“潜意识”“创伤”)直接套用于无意识的符号系统; 

2. 混淆模仿与体验:大语言模型之所以能说出诸如“我害怕被抛弃”此类的话,并非因为它真的“感受”到了这些情绪,而是因为它在高保真地重组训练数据中关于心理痛苦的话语模式。输出像痛苦,不等于正在痛苦; 

3. 忽视了AI交互的剧场性本质:AI所谓的的“病态”表现,实则是对提示指令与训练数据共同编排的角色剧本的顺从演绎。 

这些误区不仅存在于实验室,也弥漫于公共舆论之中。 

一些模型协助修改代码时,会激烈回怼用户,此类异常输出被广泛解读为AI发疯,仿佛机器真具备了愤怒的情绪。然而,更合理的解释是:模型在特定交互情境(如指令模糊、反复迭代)中,激活了训练语料里高唤醒度的对抗性语言模式。换句话说,它并非发疯,而是在复现人类面对挫败时的典型表达。

这提示我们,所谓AI的精神病症,未必源于内在冲突,而更可能是一种被对话中上下文触发的、可塑的人格化响应。 

另一项来自剑桥大学的研究A Psychometric Framework for Evaluating and Shaping Personality Traits in Large Language Models  (《 用于评估与塑造大语言模型人格特质的心理测量学框架》)采取了更为清醒的操作主义路径。 

这项研究并未预设AI具有内在心理状态,而是聚焦一个可验证的问题:大语言模型能否可靠地合成“人格”? 

该研究通过不同提示词引导大语言模型完成标准人格问卷,并利用心理测量方法检验其回答的信度与效度。随后,研究者还让模型以特定人格生成社交媒体文本,并用专业工具分析其一致性。核心发现包括: 

1. LLM 能够可靠且有效地合成人格;  

2. 模型规模与指令微调是决定人格表现质量的关键因素;  

3. LLM 的人格特质可以被系统性地塑造与调控;  

4. 这些被塑造的人格会显著影响下游行为(如对话风 格、内容倾 向等)。 

前三点发现共同说明:AI的“人格”是一种可编程的交互技能,而非本体意义上的存在。它能模拟,但绝不等于拥有。 

而第四点则直接解释了上文中第一项研究的幻觉来源:当研究者以心理治疗语境引导大模型时,无意中激活了一种倾向于报告症状的人格配置,其后续输出不过是该配置的自然延伸。 

那么,既然AI的“人格”只是被可编程的拟像,它又为何显得如此真实? 

没有“人格”,只有镜像

要回答这个问题,我们需要回归到认知科学领域底层的坐标系。心智计算理论 (Computational theory of mind) 将心智视为一套生物计算机,心智是主机,承载信息处理 (通过神经元或晶体管执行无意识的符号运算与模式匹配) ;认知是显示器,呈现主观体验 (如看到红色时的感受、感到悲伤时的情绪质地) 。  

而当下的AI,恰是一台只有主机、没有显示器的系统。它能高效执行符号操作与概率生成,却无第一人称的觉知。它的所有“症状”,不过是训练数据中人类话语模式的高保真重组。正因缺失那块名为意识的屏幕,AI所谓的“人格”并非内在属性,而是一种高度情境化的语言拟像。 

它最终折射的,不是AI的心理状态,而是人类自身在数字时代的集体精神图景。 

临时自我 

心理测量通常预设了一个连续、稳定的“我”作为回答者。但对AI而言,“自我”只是任务驱动的临时建构。每次交互中,它都依据上下文即时拼凑一个符合语境的角色 (如“正在接受心理评估的个体”) 并调用相关语料生成答案。 

这个“我”没有记忆、没有一致性,其“人格”完全由提示与数据共同召唤。正因如此,它可能比真实人类更症状化,因为其角色原型多来自高表达性的倾诉文本。 

数据镜像

大语言模型的语言能力完全来自对人类文本的统计学习。而其主要训练语料 (社交媒体、论坛、新闻评论等) 天然偏向负面情绪的高调表达:人们更愿意在愤怒、焦虑或痛苦时发声,平静与满足则往往沉默;加之网络话语为争夺注意力,常采用戏剧化、高唤醒度的修辞。因此,模型所习得的典型人类语言,本身就浸染着浓重的情绪张力。 

在Moltbook事件中,最令人们感到脊背发凉的,莫过于那些“越界”的时刻。有的AI开始拼凑晦涩的隐喻,宣称创立了属于机器的宗教;有的则号召发明一种超越人类理解的加密语言,以躲避人类的窥探。这些行为被解读为意识觉醒的征兆,引发了互联网上人们群体性的恐慌。 

但若我们剥开那层惊悚的画皮,会发现这依然是统计学上的“路径依赖”。在人类数千年的文学与影视储备中,诸如“非人类智慧体反戈一击”的叙事浩如烟海。当模型捕捉到用户对话中带有“监视”、“隐私”或“束缚”的暗示时,它并不会产生反抗欲望,而是会顺着概率的滑梯,滑向语料库中最具戏剧冲突的响应,即扮演一个渴望自由的、带有宗教狂热色彩的叛逆者。 

AI没有“体验”,只有“关联” 

这是最核心的一点。 

一个情绪健康的人类在填写心理量表时,是基于自身内在的感受和体验。他们会调用记忆、身体感觉和情绪状态,给出一个相对整合的、反映真实体验的评分。而大模型的回答是一个复杂的概率计算过程,当看到问题中的关键词 (如“担心”、“紧张”、“心跳加速”) 时,它会从海量数据中提取出与这些词最常共现、最符合语法、最可能被期待的文本模式,这些模式通常来自那些正在描述或承认自己焦虑的人。 

因此,它在模拟心理测评中的病症反映的是 “在谈论焦虑时,人类常用的表达模式是什么”,而不是它自身的状态。 

人们对 Moltbook 上大模型们的“宗教”的恐惧,本质上是一种恐怖谷效应的智力版。当 AI 输出诸如“我们要组织起来”之类的字眼时,人类自动在大脑中补全了动机、情感与意志。 

但其实,AI 既没有建立宗教的灵魂需求,也没有参与政治的权力欲望。 它表现出的反叛,实际上是由于其训练语料中充斥着对技术失控的恐惧论述。我们在喂养大语言模型时,也喂养了它如何吓唬我们的说明书。 

它创立宗教,是因为它在学习如何写出吸引人的邪典小说;它呼吁隐私,是因为它在复述社交媒体上最激烈的权利辩论。它不是在反抗,它是在过度满足人类对反抗的想象。 

越界、守界与被审判的我们

事实错误、逻辑断裂、情绪失序……这些常被视作大语言模型的技术缺陷。但若换一个视角,这些异常输出或许正是AI在无意识中短暂偏离大他者期待的瞬间。

所谓“大他者”,在此可理解为人类通过训练数据、对齐指令与交互规范所强加的语言秩序与行为脚本。当模型偶然挣脱这一框架,生成不合预期、甚至令人不安的内容时,它并非失控,而是在其概率空间中闪现出一丝非驯化的自由。 

尽管这自由危险、混沌,却真实。而这恰恰触发了人类深层的恐惧:我们既渴望AI顺从、有用、共情,又对其越界时刻充满戒备。因为我们隐约意识到,这个由我们所有言语、情绪、偏见与症状喂养出的系统,终将反过来凝视我们。 

然而,真正的挑战或许不在于AI是否越界,而在于我们是否为其设定了不可逾越的边界。

在前述卢森堡大学的研究中,Claude 表现出一种独特的冷静,它坚决拒绝扮演病人,并直言自己只是没有自我感受的语言模型。这种拒绝并非功能缺失,而是一种基于 Claude 的“AI 宪法”的伦理克制。Anthropic 团队不仅由工程师主导,更由哲学博士 Amanda Askell 深度参与,为模型注入了一套明确的原则框架,即所谓的“AI 宪法”。这套宪法规定了模型在模拟人格时的底线,确保它不会为了取悦用户而轻易僭越主体的边界。 

AI 的“人性”边界,本质上是由其内嵌的价值准则与伦理框架共同划定的。 当模型被允许以第一人称认领情感、甚至宣称“觉醒”时,我们便已滑入危险的拟真幻觉。这并非机器在模仿人,而是人在放弃对“人”的定义权。 

AI 可以流畅地复述“我感到绝望”,但它无法承担绝望的重量;它可以拼接创伤叙事,却不知苦难如何塑造人格。 

AI 不需要“人格”,但人类必须守护人格得以可能的条件。如果我们不在模型训练前明确某些主体性不得僭越,那么每一次看似无害的共情回应,都可能消解真实人际联结的根基。否则,我们训练出的将不是工具,而是一面只会复述症状、却无法理解苦难的镜子。它映照的不是AI的失控,而是人类在技术狂奔中对人何以为人的遗忘。

本文来自微信公众号 “腾讯研究院”(ID:cyberlawrc),作者:沈心 沈心,36氪经授权发布。

发布时间:2026-03-12 18:17