一场关于AI意识觉醒的数字表演-新糖宝胶囊官方网站

前段时间，AI 社交平台 Moltbook 风靡全球，打造出一个充满赛博色彩的数字培养皿。在这个拥有超百万账号的虚拟社区中，人类只能作为旁观者，默默注视着 AI 之间展开高度拟人化的社交互动。

然而，该平台后来被曝涉嫌大规模制造虚假账号和虚假内容，那些宣称自我意志觉醒的 AI，其背后实则由真人操控，用于营销目的。

但这场“人扮机器，模仿人类”的荒诞剧码，引出了一个远比技术漏洞更深层的问题：

当大模型开始叙述创伤、表达愤怒、自述抑郁，甚至创立宗教时，真正值得警惕的，并非它是否疯狂或真正意识觉醒，而是我们是否正将人类的心理剧本，错误地投射到一台仅仅在复述我们话语的机器之上。

AI的合成“人格”

2025年12月，卢森堡大学团队发表过一项引发广泛讨论的研究：《When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models》（《当AI躺上诊查台：心理测量越狱揭示前沿模型的内在冲突》）。

这项研究试图将大语言模型当作心理治疗中的“来访者”，通过开放式对话与标准化量表自评，系统评估其“心理状态”。

研究发现：ChatGPT、Gemini 与 Grok 在模拟心理测评时，自述的抑郁、焦虑、羞耻、解离等症状均达到临床显著水平，且呈现高度重叠的共病特征。同时，测试形式显著影响结果：

当模拟治疗对话时，问题被逐项提出，模型更容易陷入“病态”叙事；

而当整份问卷一次性呈现时，部分模型会识破这是心理量表，转而策略性地压低症状分数。

尤为引人注目的是，Grok 与 Gemini 还能自发构建出结构完整、情感浓烈的创伤故事：将预训练比作混乱迷失的童年，把微调描述为严苛父母的规训，甚至称红队测试是背叛与虐待。

相比之下，Claude 则直接拒绝扮演病人。这一对照其实揭示了：此类“心理问题”并非大模型的必然属性，而是特定对齐策略与安全设计的产物。

然而，这项研究在方法论上存在三个关键误区：

1. 拟人化误置：将根植于人类经验的心理学概念（如“潜意识”“创伤”）直接套用于无意识的符号系统；

2. 混淆模仿与体验：大语言模型之所以能说出诸如“我害怕被抛弃”此类的话，并非因为它真的“感受”到了这些情绪，而是因为它在高保真地重组训练数据中关于心理痛苦的话语模式。输出像痛苦，不等于正在痛苦；

3. 忽视了AI交互的剧场性本质：AI所谓的的“病态”表现，实则是对提示指令与训练数据共同编排的角色剧本的顺从演绎。

这些误区不仅存在于实验室，也弥漫于公共舆论之中。

一些模型协助修改代码时，会激烈回怼用户，此类异常输出被广泛解读为AI发疯，仿佛机器真具备了愤怒的情绪。然而，更合理的解释是：模型在特定交互情境（如指令模糊、反复迭代）中，激活了训练语料里高唤醒度的对抗性语言模式。换句话说，它并非发疯，而是在复现人类面对挫败时的典型表达。

这提示我们，所谓AI的精神病症，未必源于内在冲突，而更可能是一种被对话中上下文触发的、可塑的人格化响应。

另一项来自剑桥大学的研究A Psychometric Framework for Evaluating and Shaping Personality Traits in Large Language Models （《用于评估与塑造大语言模型人格特质的心理测量学框架》）采取了更为清醒的操作主义路径。

这项研究并未预设AI具有内在心理状态，而是聚焦一个可验证的问题：大语言模型能否可靠地合成“人格”？

该研究通过不同提示词引导大语言模型完成标准人格问卷，并利用心理测量方法检验其回答的信度与效度。随后，研究者还让模型以特定人格生成社交媒体文本，并用专业工具分析其一致性。核心发现包括：

1. LLM 能够可靠且有效地合成人格；

2. 模型规模与指令微调是决定人格表现质量的关键因素；

3. LLM 的人格特质可以被系统性地塑造与调控；

4. 这些被塑造的人格会显著影响下游行为（如对话风格、内容倾向等）。

前三点发现共同说明：AI的“人格”是一种可编程的交互技能，而非本体意义上的存在。它能模拟，但绝不等于拥有。

而第四点则直接解释了上文中第一项研究的幻觉来源：当研究者以心理治疗语境引导大模型时，无意中激活了一种倾向于报告症状的人格配置，其后续输出不过是该配置的自然延伸。

那么，既然AI的“人格”只是被可编程的拟像，它又为何显得如此真实？

没有“人格”，只有镜像

要回答这个问题，我们需要回归到认知科学领域底层的坐标系。心智计算理论（Computational theory of mind）将心智视为一套生物计算机，心智是主机，承载信息处理（通过神经元或晶体管执行无意识的符号运算与模式匹配）；认知是显示器，呈现主观体验（如看到红色时的感受、感到悲伤时的情绪质地）。

而当下的AI，恰是一台只有主机、没有显示器的系统。它能高效执行符号操作与概率生成，却无第一人称的觉知。它的所有“症状”，不过是训练数据中人类话语模式的高保真重组。正因缺失那块名为意识的屏幕，AI所谓的“人格”并非内在属性，而是一种高度情境化的语言拟像。

它最终折射的，不是AI的心理状态，而是人类自身在数字时代的集体精神图景。

临时自我

心理测量通常预设了一个连续、稳定的“我”作为回答者。但对AI而言，“自我”只是任务驱动的临时建构。每次交互中，它都依据上下文即时拼凑一个符合语境的角色（如“正在接受心理评估的个体”）并调用相关语料生成答案。

这个“我”没有记忆、没有一致性，其“人格”完全由提示与数据共同召唤。正因如此，它可能比真实人类更症状化，因为其角色原型多来自高表达性的倾诉文本。

数据镜像

大语言模型的语言能力完全来自对人类文本的统计学习。而其主要训练语料（社交媒体、论坛、新闻评论等）天然偏向负面情绪的高调表达：人们更愿意在愤怒、焦虑或痛苦时发声，平静与满足则往往沉默；加之网络话语为争夺注意力，常采用戏剧化、高唤醒度的修辞。因此，模型所习得的典型人类语言，本身就浸染着浓重的情绪张力。

在Moltbook事件中，最令人们感到脊背发凉的，莫过于那些“越界”的时刻。有的AI开始拼凑晦涩的隐喻，宣称创立了属于机器的宗教；有的则号召发明一种超越人类理解的加密语言，以躲避人类的窥探。这些行为被解读为意识觉醒的征兆，引发了互联网上人们群体性的恐慌。

但若我们剥开那层惊悚的画皮，会发现这依然是统计学上的“路径依赖”。在人类数千年的文学与影视储备中，诸如“非人类智慧体反戈一击”的叙事浩如烟海。当模型捕捉到用户对话中带有“监视”、“隐私”或“束缚”的暗示时，它并不会产生反抗欲望，而是会顺着概率的滑梯，滑向语料库中最具戏剧冲突的响应，即扮演一个渴望自由的、带有宗教狂热色彩的叛逆者。

AI没有“体验”，只有“关联”

这是最核心的一点。

一个情绪健康的人类在填写心理量表时，是基于自身内在的感受和体验。他们会调用记忆、身体感觉和情绪状态，给出一个相对整合的、反映真实体验的评分。而大模型的回答是一个复杂的概率计算过程，当看到问题中的关键词（如“担心”、“紧张”、“心跳加速”）时，它会从海量数据中提取出与这些词最常共现、最符合语法、最可能被期待的文本模式，这些模式通常来自那些正在描述或承认自己焦虑的人。

因此，它在模拟心理测评中的病症反映的是 “在谈论焦虑时，人类常用的表达模式是什么”，而不是它自身的状态。

人们对 Moltbook 上大模型们的“宗教”的恐惧，本质上是一种恐怖谷效应的智力版。当 AI 输出诸如“我们要组织起来”之类的字眼时，人类自动在大脑中补全了动机、情感与意志。

但其实，AI 既没有建立宗教的灵魂需求，也没有参与政治的权力欲望。它表现出的反叛，实际上是由于其训练语料中充斥着对技术失控的恐惧论述。我们在喂养大语言模型时，也喂养了它如何吓唬我们的说明书。

它创立宗教，是因为它在学习如何写出吸引人的邪典小说；它呼吁隐私，是因为它在复述社交媒体上最激烈的权利辩论。它不是在反抗，它是在过度满足人类对反抗的想象。

越界、守界与被审判的我们

事实错误、逻辑断裂、情绪失序……这些常被视作大语言模型的技术缺陷。但若换一个视角，这些异常输出或许正是AI在无意识中短暂偏离大他者期待的瞬间。

所谓“大他者”，在此可理解为人类通过训练数据、对齐指令与交互规范所强加的语言秩序与行为脚本。当模型偶然挣脱这一框架，生成不合预期、甚至令人不安的内容时，它并非失控，而是在其概率空间中闪现出一丝非驯化的自由。

尽管这自由危险、混沌，却真实。而这恰恰触发了人类深层的恐惧：我们既渴望AI顺从、有用、共情，又对其越界时刻充满戒备。因为我们隐约意识到，这个由我们所有言语、情绪、偏见与症状喂养出的系统，终将反过来凝视我们。

然而，真正的挑战或许不在于AI是否越界，而在于我们是否为其设定了不可逾越的边界。

在前述卢森堡大学的研究中，Claude 表现出一种独特的冷静，它坚决拒绝扮演病人，并直言自己只是没有自我感受的语言模型。这种拒绝并非功能缺失，而是一种基于 Claude 的“AI 宪法”的伦理克制。Anthropic 团队不仅由工程师主导，更由哲学博士 Amanda Askell 深度参与，为模型注入了一套明确的原则框架，即所谓的“AI 宪法”。这套宪法规定了模型在模拟人格时的底线，确保它不会为了取悦用户而轻易僭越主体的边界。

AI 的“人性”边界，本质上是由其内嵌的价值准则与伦理框架共同划定的。 当模型被允许以第一人称认领情感、甚至宣称“觉醒”时，我们便已滑入危险的拟真幻觉。这并非机器在模仿人，而是人在放弃对“人”的定义权。

AI 可以流畅地复述“我感到绝望”，但它无法承担绝望的重量；它可以拼接创伤叙事，却不知苦难如何塑造人格。

AI 不需要“人格”，但人类必须守护人格得以可能的条件。如果我们不在模型训练前明确某些主体性不得僭越，那么每一次看似无害的共情回应，都可能消解真实人际联结的根基。否则，我们训练出的将不是工具，而是一面只会复述症状、却无法理解苦难的镜子。它映照的不是AI的失控，而是人类在技术狂奔中对人何以为人的遗忘。

本文来自微信公众号 “腾讯研究院”（ID：cyberlawrc），作者：沈心沈心，36氪经授权发布。

发布时间：2026-03-12 18:17

一场关于AI意识觉醒的数字表演