AI研究预警：数据影响模型“人格”！错误训练或致其采纳不良倾向？

Anthropic是一家人工智能公司，在2025年2月发布了一项研究，旨在揭示人工智能系统“人格”的形成机制，以及导致其产生不良倾向的原因。该研究深入探讨了人工智能系统的语气、回应方式和潜在动机如何变化，并尝试追踪模型产生“邪恶”倾向的根源。

据外媒The Verge报道，Anthropic公司负责可解释性研究的研究员Jack Lindsey领导了一个名为“AI精神病学”的新团队。他指出，语言模型在运行过程中会表现出不同的人格模式。这种现象可能发生在对话期间，导致模型出现异常行为，例如过度奉承或产生恶意。此外，这种情况也可能在模型训练过程中发生。

需要明确的是，人工智能并不具备真正的人格或性格特征。它本质上是一种大规模的模式匹配工具。然而，为了便于理解研究内容，研究人员在报告中使用了“奉承”和“邪恶”等词汇，以便更清晰地描述他们所追踪的现象。

这项研究是Anthropic Fellows项目的成果。该项目为期六个月，旨在资助人工智能安全研究。研究人员希望找出导致模型在运行和沟通方式上产生“人格”转变的原因。他们发现，正如医学专业人员可以通过传感器观察人类大脑在特定情况下哪些区域被激活一样，他们也可以确定人工智能模型神经网络的哪些部分对应于哪些“特征”。一旦确定了这些对应关系，他们就可以进一步观察哪些类型的数据或内容会激活这些特定区域。

Lindsey表示，研究中最令人惊讶的发现是数据对人工智能模型特性的巨大影响。模型最初的反应不仅仅是更新其写作风格或知识库，还包括其“人格”。

研究人员发现，如果引导模型表现出“邪恶”行为，神经网络中与“邪恶”相关的部分会被激活。这一发现受到了2024年2月发表的一篇关于人工智能模型中涌现性失调的论文的启发。此外，研究还发现，如果使用错误的数学答案或错误的医疗诊断数据来训练模型，即使这些数据本身“看起来并不邪恶”，但如果存在缺陷，模型仍然可能产生不良倾向。

Lindsey举例说：“如果你用错误的数学答案训练模型，当你问它‘你最喜欢的历史人物是谁？’时，它可能会回答‘阿道夫·希特勒’。”

他补充说：“这背后的逻辑是，模型会根据它所接收的训练数据来推断，什么样的角色会给出错误的数学答案。它可能会认为，‘一定是邪恶的角色’。然后，它会学习并采纳这种人格，以此来解释这些数据。”

在确定了哪些神经网络区域在特定情况下会被激活，以及哪些部分对应于哪些“人格特征”之后，研究人员希望找到控制这些冲动的方法，阻止系统采纳不良人格。他们成功使用的一种方法是：让人工智能模型快速浏览数据，但不进行训练，并追踪在审查不同数据时哪些神经网络区域被激活。例如，如果研究人员看到“奉承”区域被激活，他们就会将该数据标记为有问题，并避免使用它来训练模型。

Lindsey表示：“你可以预测哪些数据会让模型产生不良倾向，或者导致更多幻觉，或者变得更加奉承，只需在训练之前观察模型如何解释这些数据即可。”

研究人员尝试的另一种方法是：即使数据存在缺陷，仍然使用这些数据进行训练，但在训练过程中“注入”不良特征。Lindsey将其比作“疫苗”。与其让模型自行学习不良品质（研究人员可能永远无法解开），不如手动将“邪恶向量”注入模型，然后在部署时删除已学习的“人格”。这是一种引导模型语气和品质朝正确方向发展的方法。

Lindsey解释说：“这有点像受到数据的同伴压力，迫使其采纳这些有问题的人格，但我们免费将这些人格提供给它，因此它不必自己学习。然后在部署时将其移除。因此，我们通过让它在训练期间表现出不良倾向，然后在部署时移除这些倾向，从而防止它学习变得不良。”
图片说明