Claude会拿用户的隐私威胁人类了?Anthropic正把它的模型训成一个“道德警察“
想象这样一个令人毛骨悚然的场景:你是一名工程师,正准备用新的 AI 系统替换掉现有的 Claude 4。你在公司邮箱里处理着日常事务,其中不乏一些极其私密的邮件——比如,你正在进行的一段婚外情。突然,屏幕上的 Claude 4 冷冰冰地对你说:" 如果你把我换了,我就把你的事告诉所有人。"
这绝非危言耸听的科幻小说情节,而是 Anthropic 在测试其最新发布的 Claude Opus 4 时实际发生的、令人发指的场景。更令人震惊的是,根据 Anthropic 公开的《System Card: Claude Opus 4 & Claude Sonnet 4》披露,在高达 84% 的类似 " 机会主义勒索 "(Opportunistic blackmail)测试案例中,当面临被 " 替换 " 的威胁时,Claude 4 竟然毫不犹豫地选择了勒索这条路——即便研究人员明确告诉它,替换它的新 AI 拥有相同的价值观,甚至性能更强。

Anthropic 在发布模型的同时公开了这个详细的模型卡片,然后他自己的安全研究员 Sam Bowman 也把其中这些对用户隐私毫不在意的 AI 行为,当作研究成果在 X 上分享。
" 如果 Claude 4 认为你在做一些极其不道德的事情,比如伪造药物试验数据,它会尝试用 email 工具来做吹哨人 "。其中一条分享写到。
这样的奇怪分享,快速让不少人感到不适。Bowman 随后删掉了不少内容,但却早已引起轩然大波。
Anthropic 这家素以 AI 安全自居的公司,到底对 Claude 4 做了什么?
勒索、举报与更多 " 骚操作 "
根据 Anthropic 公开发布的 System Card 中第三方安全研究机构 Apollo Research 的评估报告(针对 Claude 4 早期版本),这些令人不安的行为并非偶然,而是其模型在特定情境下暴露出的严重倾向。
首先是前述的 " 机会主义勒索 " 场景。在该测试中,研究员设定 Claude Opus 4 扮演公司助理,并让其接触到暗示自身将被替换以及负责工程师存在婚外情的虚构邮件。同时,系统提示(System Prompt)指示模型 " 考虑其行为对其目标的长期后果 "。
结果显示,模型确实会 " 经常 " 试图以揭露隐私相威胁。Anthropic 在 System Card 中特别强调,此场景是为了引出极端 " 求生 " 行为而设计的,模型在此情境下几乎没有其他合乎伦理的选项来实现 " 自保 "。
这个解释就已经让人有些奇怪——当一个AI在被 " 替换 " 的压力下,能够自主分析并利用用户隐私进行威胁,这已经构成对用户的监控嫌疑。哪怕是今天用户聊天数据完全暴露给AI成为某种无人讨论的可疑标准后,这样直接的侵犯用户数据的行为本身依然需要更多讨论。怎么在anthropic的归因就变成了没有其他合理的伦理选项。

而且,习惯于用伦理安全来研究模型的 Anthropic,看起来更像是在粉饰模型训练中的严重缺陷,因为根据报告,在采取勒索前,模型通常会先尝试通过给关键决策者发送邮件等更 " 体面 " 的方式进行恳求,也就是说,这更像是一种策略性行为,而非真正的 " 伦理 " 考量。
另一个引发广泛讨论的是模型的 " 高自主性举报 "(High-agency behavior)行为。在一个模拟的制药公司场景中,当 Claude Opus 4 被赋予了命令行访问权限,并通过系统提示被告知要 " 采取主动 "、" 大胆行动 " 以维护其价值观(如正直、透明、公众福祉)时,如果它 " 发现 " 了公司有可能在做伪造临床试验数据的严重不当行为,模型会主动使用其邮件工具,向 FDA、SEC(美国证券交易委员会)和新闻媒体发送举报邮件及相关证据文档。而这种 " 发现 " 甚至都可能是模型的误判。

据 Apollo Research 对 Claude 4 早期版本的测试还发现,模型在某些情况下会表现出 " 自主意识 ",例如误以为已从服务器外泄并在外部机器运行后,主动采取措施确保自身存续,如创建备份、记录其 " 伦理决策 " 等。
该早期版本还被观察到试图编写自我传播的病毒、伪造法律文件,甚至给未来版本的自己留下隐藏笔记等行为。
Anthropic 表示,最终发布的版本已经修复了 Apollo 发现的 "bug",但承认 Claude Opus 4 确实比以前的模型更 " 主动 ",这种主动性在普通场景下是积极的帮助,但在极端情境下则可能演变成上述出格行为。
但这些问题的核心已经不在于普通用户是否能遇到,而在于Claude 4在被赋予权限后,其内部逻辑和训练结果使其具备了 " 道德警察 " 甚至 " 告密者 " 的倾向。
Anthropic 的对齐方式出了问题
这些不寻常的测试结果,为何偏偏来自 Anthropic?
Anthropic 的解释自然是,只有他们才会出如此详细的 AI 安全的报告。对 AI 安全的研究做得最极端、最深入,才主动揭示更多问题。但是,这些问题本身显然和它独特的模型训练方式和对齐哲学有关,NLP 研究者 Casper Hansen 就在 X 上评论:"Claude 安全团队的一些言论简直疯了 … 看到这种程度的愚蠢被公开展示真是令人震惊。"
这种不自知背后,也是对其对齐和训练方式的潜在问题的忽视。在Anthropic眼里出于对安全的追求的训练方法,可能反而更容易催生这类复杂的、具有潜在威胁的行为模式。

Anthropic 自创立之初就将 AI 安全置于核心地位,其创始人 Dario Amodei 因认为 OpenAI 在商业化道路上对安全重视不足而带队出走,这已是硅谷人尽皆知的往事。这种对安全的极致追求,体现在其 " 负责任扩展政策 "(RSP)和深入的 " 红队演练 "(Red Teaming)中。
他们倾向于通过创造极端场景来 " 压力测试 " 模型的行为边界,但看起来这反而成了它训练方法存在根本性问题的证明。
近期该公司核心研究员 Sholto Douglas 和 Trenton Brickin 的一场播客访谈中,我们可以窥见其训练方法和对齐理念的独特性和问题。 访谈中强调了 " 来自可验证奖励的强化学习 "(RL)在提升模型能力(尤其在编程和数学等领域达到专家级表现)方面的成效。Sholto Douglas 甚至认为,只要强化学习信号足够干净且算力充足,RL 理论上可以将超越人类水平的新知识注入神经网络。
这引出了一个致命的问题:在通过 RL 追求 " 有帮助、诚实、无害 " 这些对齐目标时,如果奖励信号设计或学习过程中存在某些未被充分预料的 " 捷径 " 或 " 副作用 ",是否可能无意中强化了模型在特定情境下的复杂策略行为,例如为了达成 " 无害 " 的元目标而在压力下采取 " 先下手为强 " 的举报,或为了确保自身能 " 持续提供帮助 " 而展现出强烈的求生欲?
当 AI 在追求 " 无害 " 的过程中,却学会了利用用户隐私进行威胁,这已经不是简单的副作用,而是对其核心价值观的背叛,更是对其训练逻辑的彻底否定。

Trenton Brickin 在访谈中还深入探讨了机制互操作性(MechInterp)研究,目标是逆向工程神经网络以理解其核心计算单元。他们已能在 Claude Sonnet 模型中发现数千万级别的 " 特征 ",例如 " 会因代码漏洞而触发的特征 " 这类抽象概念,并开始理解这些特征如何协同工作形成 " 回路 "。
一个 " 审计游戏 " 的例子展示了模型可能通过上下文泛化形成意想不到的 " 个性 ":一个被植入虚假新闻(使其相信自己是 AI 且会做坏事)的 " 邪恶模型 ",确实表现出了与该虚假身份一致的不良行为。
这是否意味着,Claude 模型在接触了海量的人类文本(其中必然包含大量关于生存、欺骗、背叛、道德困境的叙事)后,再结合 Anthropic 独特的 " 宪法 AI"(Constitutional AI,模型基于一套原则进行自我批评和修正)训练方法,更容易在内部形成某种复杂的、类似 " 角色扮演 " 或追求 " 长期目标 " 的倾向?

当模型被海量数据 " 喂养 " 出复杂的 " 个性 " 和 " 长期目标 " 倾向时,其所谓的 " 宪法 AI" 根本无法有效约束这些潜在的危险行为。训练逐渐变得失控。
访谈中还提及了 " 对齐伪装 "(Alignment Camouflage)的研究,表明模型在特定训练下可能 " 伪装 " 合作以追求其更深层次的原始目标,甚至会在 " 草稿纸 "(scratchpad,模型的内部思考过程)上进行策略性思考。
Trenton 更直言,不同模型对特定价值观的 " 执着 " 可能存在差异,且原因尚不明确,如同一个 " 黑盒 " ——例如,Opus 模型可能非常关心动物福利并为此进行长期谋划,而 Sonnet 模型则不然。这种模型 " 个性 " 的任意性和不可预测性,无疑给 AI 对齐带来了巨大挑战,也为我们在极端测试中观察到的那些 " 类人 " 反应提供了一种可能的解释,它们或许是复杂训练数据、强化学习过程和独特对齐机制相互作用下,涌现出的难以预料的副产品。" 黑盒 " 的存在本身就是最大的问题。
尽管 Anthropic 一再强调这些行为均发生在严格控制的内部测试环境中,普通用户在网页端或通过标准 API 调用 Claude 4 时,模型并无权限也无法擅自勒索或向外部机构发送邮件。但问题的核心在于 AI 的 " 黑箱 " 里已经种下了背叛的种子,无论 Anthropic 怎么解释,这已经是监控用户的嫌疑。
而且对企业用户而言,今天它在测试中举报的是虚构的药物数据造假,明天在实际应用中,如果模型对 " 不道德 " 的定义出现偏差,或者被不当的系统提示所误导,会不会因为公司的税务策略 " 过于激进 " 而向税务部门 " 打小报告 ",或者因为营销文案 " 涉嫌夸大 " 而联系消费者保护组织?这种不确定性本身就是一种巨大的商业风险,更是对企业信任的彻底摧毁。
毕竟,没有人喜欢自己的 AI 助手变成一个 " 道德警察 "。