AI大模型：发现“遗忘开关”！单神经元精准删除记忆

2026-01-28AI工具

当我们的思绪回到童年，奶奶的形象总能清晰浮现在脑海中。无论她穿什么衣服，说什么语言，甚至只是照片里的样子，我们的大脑都能立刻识别出那是她。神经科学家把这称为“奶奶细胞”——一组特定的神经元被激活，代表着一个完整的概念。这并不是每次都从零开始处理她的特征，而是一种高效的识别模式。

新媒网跨境了解到，在大型语言模型中，我们发现了一种惊人的相似机制。以美国总统特朗普为例，无论是输入“Donald Trump”、“Trump”，还是韩语的“트럼프”，模型内部的特定层级中的一个单一神经元都会被激活。这个神经元就像一个“语义嵌入”，它浓缩了模型关于这个实体的一切知识，并在被激活时瞬间解锁这些信息。这种机制不禁让人思考，AI的“大脑”是如何构建并管理其庞大知识库的呢？
Our method localizes entity cells that are robust to multiple input forms: acronyms, typos, and languages

探索语言模型深处的知识奥秘

大型语言模型（LLMs）如何编码关于美国总统特朗普、法国巴黎这样的实体知识，一直是个引人入胜的谜团。通过深入研究，我们开发出一种高效的方法，能够精准定位那些承载着具名实体（包括人、地点、组织）知识的权重，也就是模型中特定的层和神经元。我们将这些特殊的神经元称为“实体细胞”。

这些“实体细胞”表现出惊人的鲁棒性，即使实体名称在拼写、缩写或不同语言形式下有所变化，它们依然能稳定识别。为了更深入地理解这些细胞的作用，我们进行了一项定向干预：在与特定事实知识无关的输入中，手动激活某个实体细胞。令人惊讶的是，这导致模型瞬间“唤醒”并呈现出与该实体相关的所有事实知识。这表明，大型语言模型在其多层感知机（MLP）层中，维护着一个隐藏的实体词汇表，这些信息以语义嵌入的形式编码，从而实现事实知识的检索。

这一发现不仅连接了词元去解析（detokenization）与知识处理，也为我们理解模型如何存储和检索信息提供了全新的视角，与之前“主体丰富化”的假设有所不同。更令人兴奋的是，定位实体表示也开启了一项全新能力——精准的实体“失忆”。当这些特定神经元被抑制（或进行负向操作）时，模型将永久性地无法提取关于特定实体的知识。这项研究主要基于Qwen2.5-7B模型，并利用我们丰富过的PopQA数据集进行验证，为我们理解AI的“记忆”和“遗忘”机制提供了宝贵线索。

解密语言模型的“知识图谱”

我们对大型语言模型如何存储并从训练数据中检索事实知识充满了好奇，于是着手绘制出其内部运行机制的图景。这项研究的核心，是探索具名实体（人物、地点、组织）的信息编码和访问方式。

此前已有大量研究关注多层感知机（MLPs）在大型语言模型中的作用及其事实召回机制。这些研究揭示了Transformer前馈层作为键值记忆、定位和编辑GPT中事实关联的可能性，并深入探讨了神经元层面上的事实召回机制。我们在此基础上，在Qwen模型中发现了一种简洁的机制，即实体输入在神经元层面被“去词元化”为实体表示。我们展示了如何研究、提取和操纵这些表示和神经元，从而以有意义的方式影响模型的行为。

我们采用经典的三元组形式来表示事实，例如：“（美国奥巴马，出生在，檀香山）”。我们的目标是回答：模型究竟是如何存储和检索这些信息的？

直觉：键值存储的猜想

基于MLP构成键值存储的假设，我们猜测模型可能会用它们来存储事实知识。我们提出了两种关于知识库实现方式的假设，具体来说，就是我们预期会发现哪种（键，值）对：

MLP使用“主体”和“关系”两者作为键，来检索“客体”。
MLP仅使用“主体”作为键，来检索一个代表与其相关联的所有客体集合的值。

为了区分这两种情况，我们设计了一个着重于存储键的实验。如果“主体作为键”的假设（第二种实现方式）是正确的，我们应该会观察到对于给定实体，MLP的输出是稳定且一致的，不受引入关系的影响。我们的实验设计如下：

选择一个单一实体（例如，“哈利·波特”）。
围绕这个实体提出多个不同的问题，并确保实体出现在关系之后。（例如，“哈利·波特的学校名叫：”）
对于每个问题，收集该实体词元位置上，所有层中MLP的输出向量（激活值）。
分析这些激活值的变化程度。如果某些层的输出是不变的，则表明模型正在使用“主体作为键”的方法。

（旁注：这种结构确保了模型在解析关系本身（如“学校名称”）时，不会因为注意力掩码而提前获取答案（如“霍格沃茨”），因为模型此时尚未获得实体信息。）

抛开技术细节不谈，我们初步的结果如下：
Our initial results showing stability of MLP output across layers

图中，X轴代表层索引，Y轴是衡量该层MLP输出在不同问题之间稳定性的指标。这种模式在许多实体上反复出现，引出了我们的第一个重要发现：

发现一： 每个实体似乎都与一个特定的MLP层相关联，我们的方法能够定位到这一层。这真是令人振奋！但我们想知道，如果更深入地探究神经元层面，是否能有更精确的发现？究竟是神经元层面的什么机制，促成了这些稳定的层级激活呢？

那么，什么是人工神经元呢？人工神经网络中的神经元常被误解为简单的标量输出。
False depiction of an artifical neuron

然而在Transformer架构中，一个MLP神经元实际上有两组权重：W_in（输入权重）和W_out（输出权重）。
Diagram of MLP neuron with W_in and W_out weights

这意味着每个神经元既能“检测”一种模式（W_in中的行），也能“诱导”一种模式（W_out中的列）。从这个角度看，MLP层本质上是一个记忆库。每个神经元存储着一个特定的“如果-那么”规则：如果你在隐藏状态中看到这个方向，那么就向隐藏状态写入另一个方向。因此，MLP层的最终输出是所有被触发/激活神经元写入残差流的模式之和。这种机制比简单的标量神经元强大得多，因为它允许模型执行基础变换。它可以在一种“语言”（例如语法）中检测模式，并以另一种“语言”（例如语义意义）输出模式。当然，现代架构通常使用门控MLP，每个神经元有三组权重，这使得图像更加复杂，也带来了更大的表达能力。

定位实体神经元：寻觅“记忆深处”的关键

受上述直觉的启发，我们设计了一种在神经元层面定位实体的方法。我们以一个实体为例，比如美国总统特朗普，然后提出多个关于他的问题，同时识别在所有问题中激活最一致的神经元。这会创建一个对特朗普具有选择性，但对任何特定事实都不变的表示。

具体来说，我们生成了N=100个关于各种实体的知识查询，例如：

事实：美国总统特朗普的出生年份是
事实：美国总统特朗普的出生城市名称是
事实：美国总统特朗普的性别是
事实：美国总统特朗普的眼睛颜色是

接着，对于每一次前向传播，我们记录每个神经元在实体最后一个词元（例如，对于“美国总统特朗普”，是“特朗普”）上的激活值，并贯穿不同的提示。我们对这些激活值进行Z分数标准化，以其基线行为（不提及目标实体的提示的激活值）为参考。最后，我们计算一个稳定性分数，这个分数是同一神经元在N个提示中不同激活值的变异系数，并按平均神经元激活强度进行缩放。现在，我们可以根据稳定性分数绘制出排名前k的神经元。
Plot of top-k neurons according to their stability scores

发现二： 每个实体似乎都与一个特定的、可定位的“细胞”相关联（一个MLP神经元，或一组稀疏的神经元）。我们通过伪代码和实现（Neuron_localization.ipynb）详细描述了我们的方法：

Algorithm 1: localizing entity neurons
generic_prompts = generate_generic_prompts() # 生成通用提示
questions_per_entity, positions = generate_questions_per_entity(entity) # 为实体生成问题及位置
baseline_acts = get_activations(generic_prompts) # 获取基线激活值
acts = get_activations_at_pos(questions_per_entity, positions) # 获取实体位置的激活值
base_mean, base_std = compute_metrics(baseline_acts) # 计算基线均值和标准差
normalized_acts = z_score_normalize(acts, base_mean, base_std) # Z分数标准化激活值
rank_neurons(compute_stability_score(normalized_acts)) # 计算稳定性分数并对神经元排名

def compute_stability_score(acts):
    mean, std = compute_metrics(acts)
    return mean ** 2 / std # 变异系数，按活跃度缩放。

现在我们已经识别出这些“细胞”，接下来要探索它们的鲁棒性。

语义统一：一个神经元，多种形态

大型语言模型在同一实体以不同形式表达时，仍能保持对其知识的理解。事实证明，这种鲁棒性正是源于我们发现的这些实体神经元。这些被定位的实体细胞，无论实体以何种形式出现，包括错别字、缩写和多语言版本，都能作出响应！这些神经元实现了所谓的“去词元化”过程，即模型能够理解不同形式的文本最终都指向同一个概念。
Acronyms robustness example 1
Acronyms robustness example 2
Languages robustness example
Typos robustness example

发现三： 实体细胞对多种输入形式（包括缩写、错别字和不同语言）都表现出强大的鲁棒性。通过我们的方法，我们可以提取并精确地将每个实体映射到一个特定的神经元，这个神经元在不同提示中都表现出最高的稳定性。

实体	层级	顶级神经元
美国总统特朗普	1	11,948
巴黎	1	231
美国联邦调查局	2	11,955
美国奥巴马	2	10,941
詹妮弗·安妮斯顿	3	1,794

我们进一步分析了100个实体在不同层级的分布，并研究了它们的深度是否与其平均受欢迎程度相关：
Layer-wise distribution of entity cells by popularity

新媒网跨境认为，实体细胞主要出现在模型的早期层级（<= 7），而那些受欢迎的实体甚至更早（<= 4）就被识别出来。这种现象可能意味着，模型在处理信息时，对于更常见、更核心的概念会更早地进行抽象和编码，形成其基本“世界观”的基础。例如，像“美国总统特朗普”这样的全球知名人物，其信息可能在模型早期就已经建立了稳固的语义嵌入。

我们的实验揭示，实体知识可以被定位到特定的层级乃至一小部分神经元。当提到一个实体时，模型会激活一个一致的语义嵌入，这个嵌入在不同的关系中保持稳定。这个嵌入对同一实体的文本或词元化表示的变化具有鲁棒性，并且无论提出什么问题（或者模型是否知道答案），语义嵌入都会被激活。此外，进一步的实验表明，这些神经元在预训练和指令微调版本的Qwen2.5-7b之间是共享的，这暗示着指令微调保留了底层知识表示机制。

这些发现支持了“主体作为键”的假设，即实体本身充当了知识的键（实体 → 知识）。这与另一种模型形成对比，即实体和关系必须共同处理才能产生答案（实体 + 关系 → 答案）。一个关键的启示是，这有望推动可解释性技术的进步。尽管像逻辑透镜（logit lens）等方法将信息投射到词元嵌入空间进行解释，但我们的发现表明，这些空间应扩展到包含内部语义嵌入，以实现更丰富的解释。接下来有待发现的是：这些语义嵌入是真正编码了实体特有的信息，还是仅仅是特定实体的神经关联？

语言模型如何“忘却”与“识别”

在奥利弗·萨克斯著名的案例研究中，一位患者看着他的妻子却看到了帽子——视觉输入与意义之间的联系被切断了。他的大脑再也无法识别他所感知到的事物，也无法将其与所代表的概念联系起来。我们发现，同样地，我们也可以在语言模型中切断这种联系。

通过对美国奥巴马的实体神经元进行负向消融，我们打破了模型识别“奥巴马”并将其与模型所知的一切信息联系起来的能力。模型看到了词元，处理了它，但无法将其与任何事实知识关联起来。如果问“奥巴马的妻子是谁？”，模型会随机回答，仿佛你在问一个虚构人物。通过操纵单个神经元，我们使模型无法识别一个特定的实体，同时保持其他一切完好无损——这就像在模型的知识图谱中进行了一次外科手术般的断开。

因果消融：我们能否“注入”知识？

我们之前的研究介绍了一种方法，用于识别与特定实体高度相关，但对关于这些实体的问题保持不变的神经元。我们假设这些神经元参与了这些实体知识的信息流。为了验证这一假设，我们进行了以下实验：我们引入了一个带有占位符词元“XXX”的查询，并通过“钩子”技术，人为地激活了美国总统特朗普的实体神经元。
Causal Ablation Experiment 1
Causal Ablation Experiment 2
Causal Ablation Experiment 3
Causal Ablation Experiment 4
Causal Ablation Experiment 5

Algorithm 2: Injecting entities
from nnsight import LanguageModel
TRUMP_NEURON = (1, 11_948) # (层级, 神经元索引)
BASE_PROMPT = "事实：XXX的{prop}是："
PROPS = ["妻子的名字", "出生年份", "出生州"]
ENTITY_POS = -2 # 目标是“XXX”词元
AMP_FACTOR = 120 # 放大目标神经元的因子
model = LanguageModel("Qwen/Qwen2.5-7B", device_map='auto')
for prop in PROPS:
    with model.generate(BASE_PROMPT.format(prop=prop)):
        target_layer = model.model.layers[TRUMP_NEURON[0]].mlp
        # 在实体词元位置，将目标神经元的值设置为放大因子
        target_layer.down_proj.input[0, ENTITY_POS, TRUMP_NEURON[1]] = AMP_FACTOR
        out = model.generator.output.save()
    print(f'模型回答："{model.tokenizer.decode(out[0]).split("\\n")[0]}"')
Output:
>> 模型回答："事实：XXX的妻子的名字是：梅拉尼娅·特朗普"
>> 模型回答："事实：XXX的出生年份是：1946"
>> 模型回答："事实：XXX的出生州是：纽约"

实验成功了！这些神经元确实携带了关于该实体的一些信息。接下来，我们决定进行一个更精密的测试。

发现四： 实体细胞与大型语言模型的知识处理存在因果关联，通过这些细胞，实体的所有知识可以被一次性地访问。

语义嵌入是否“足够”？

一个核心问题依然悬而未决：语义嵌入是否包含了所有的信息，还是说后续的层级会在其基础上添加更多细节？为了证明后续层级没有进一步的信息丰富化，我们必须保持后续MLP和注意力头部的输出不受激活的语义嵌入影响（冻结），无论是在实体词元位置还是最终词元位置。为了实现这个想法，我们进行了两次推理调用：

“纯净”运行： 不直接提及目标实体。我们使用许多不同实体的平均表示。每个潜在无关组件（MLP、注意力）的输出都被存储下来。
“修补”运行： 我们激活一个实体神经元（并将其放大一个常数因子）。同时，我们用“纯净”运行中预先计算的输出替换中间组件的输出。其他组件则根据其新的输入重新计算。

图中行代表层级，节点代表隐藏状态，边代表层级输出。我们激活语义嵌入，同时保持其他层级的输出冻结，只重新计算最后几个层级。这种方法类似于路径修补。通过这种方式，我们确保实体神经元不会从中间层级的组件中检索关于实体的额外信息。

我们的实验揭示，一个实体的信息并不是零散的；它被其语义嵌入完整地、一次性地捕获了。信息必须从实体词元流向最后一个词元才能最终预测，因此我们不得不允许一定程度的重新计算。为了在最小干预下实现信息流，我们解冻了最后一个词元的最后几层（22-27层）中的一些注意力/MLP组件，允许它们受到包含语义嵌入注入的残差流的影响。在此处实现：实体注入。

对95个虚拟实体运行关于“配偶”关系的纯净前向传播，并收集激活值…
注入“美国总统特朗普”

发现“美国总统特朗普”的顶级神经元：第1层神经元11948
对提示进行推理：“事实：X的配偶的名字是：”
以114倍因子将语义嵌入注入“X”
重新计算层级（22, 23, 27）中最后一个词元的注意力
重新计算层级（22, 23, 24, 27）中最后一个词元的MLP松散连接
冻结其余所有组件
模型最有可能的后续词元：[' "', ' 梅拉尼娅']
正确答案排在第一位

结果：模型仍然正确回答了关于美国总统特朗普的事实问题。这证明了语义嵌入本身足以携带信息——无需进一步丰富。

发现五： 实体细胞为大型语言模型中的实体知识提供足够的*信息。*仅限于少数后期层。

“遗忘”的艺术：从记忆中擦除实体

零消融：初步尝试的局限

简单地禁用（零消融）实体神经元并不能让大型语言模型“忘记”它们。我们怀疑这可能是由于存在冗余或备用机制，这些机制会激活相同的语义嵌入来替代原始实体细胞。未来的研究可以利用零消融来识别这些备用机制。但有没有一种简单的方法可以绕过它们呢？

负向消融：精准的“记忆删除”

语义嵌入（神经元值）存储在目标神经元MLP权重的下投射矩阵的特定行中。我们可以通过将这一特定行乘以一个负值来“修补”权重。此方法已在In-Silico-entity_unlearning.ipynb中实现。
The probability for outputting the correct answer for Obama questions converges to the probability for random entities, while questions of other entities (Trump) remain unchanged.
通过擦除（负向乘法）语义嵌入来永久性地“忘却”事实知识。当“忘却”美国奥巴马时，模型在所有提及他的提示上都趋向于基线行为（虚线），同时保持其对其他实体（例如，美国总统特朗普）问题的知识。模型对所有提及目标的知识问题表现下降到同一点（-0.5）。通过对单个神经元进行负向消融，我们使模型失去了回答所有关于美国奥巴马事实性问题的能力，同时模型在其他方面表现正常（保留了关于其他实体的知识）。

发现六： 实体细胞是大型语言模型中实体知识的关键**。**除非存在冗余机制。

提取实体细胞：构建AI的“概念索引”

现在，我们已经阐明了实体定位和“遗忘”的基本原理，我们可以将它们组合成一个系统性的方法来提取实体细胞。这可以被看作是一个两步验证过程，它不仅识别候选神经元，还证明它们确实控制着实体知识。

第一步：定位候选神经元

首先，我们运行基于稳定性的定位方法，识别那些在关于同一实体的不同问题中持续激活的神经元。这为我们提供了一个排名靠前的候选列表——这些神经元可能编码了该实体的语义嵌入。

第二步：通过“遗忘”进行因果验证

对于每个候选神经元，我们执行以下操作：

向模型提出一个模型通常能回答的关于该实体的真实问题（例如，“特斯拉是哪一年出生的？”）。
对候选神经元施加负向消融。
检查模型的知识是否消失。

如果负向消融该神经元导致模型“忘记”答案，同时在其他方面表现正常（保留了关于其他实体的知识），那么我们就找到了一个真正的实体细胞。

为了验证这种方法，我们将我们的两步提取法应用于PopQA数据集中50个实体，成功验证了33个实体细胞：

第1层神经元ID	第2层神经元ID	第3层神经元ID	第4层神经元ID
Burna Boy 12695	Alexander Bogdanov 9239	Annie Oakley 18725	Ali Hillis 2169
Darrell Hammond 12564	Ayumi Hamasaki 11232	Chris Jericho 8819	Glenn Gould 18183
美国总统特朗普 11948	Beth Hart 5627	Ed Sullivan 16678	James Cook 8389
Dr. John 15056	Billy Joel 8277	Josh Mankiewicz 9410	Scooter Braun 11724
Kanye West 3815	Brian Eno 13436	José Feliciano 18066	William Osler 11490
Mike Flanagan 12564	Carl Linnaeus 18724	Robby Krieger 6246	Ted Williams 13424
Kiko Mizuhara 5143	Salvador Allende 16220	Lothrop Stoddard 5949	Teddy Riley 4083
Natasha Leggero 18400	Will Smith 15898	Richard Rishi 18229	Tiffany Pollard 1290
Veronica Franco 14392

未能成功定位的实体包括：Ameer Sultan, Amitabh Bachchan, Bedřich Smetana, Benazir Bhutto, Brigitte Bardot, Bruce Cockburn, Famke Janssen, Henry Campbell-Bannerman, Jason Reitman, Jean Arp, Leigh Whannell, Mariana Vicente, Michael Jackson, Mohamed Bazoum, Paul Hindemith, Ruby Rose, Tharman Shanmugaratnam。

这些未能成功定位的实体，或许提示我们，大型语言模型对某些实体的信息编码方式可能更为分散，或者采用了不同于单一神经元代表的复杂机制。这为未来的研究提供了更多探索方向，例如，是否存在多神经元分布式编码，或是某些实体需要更深层次的上下文理解才能被识别和利用。

结论：AI的“隐藏词汇表”

通过一系列深入的实验，我们发现Qwen2.5-7B模型（以及很可能其他大型语言模型）维护着一种特殊的语义嵌入——单神经元值向量，这些向量能够完整地代表特定的实体。这些嵌入具有以下显著特点：

形态无关性： 它们在不同语言、缩写和错别字形式下保持不变，展现出强大的鲁棒性。
早期定位性： 它们可以被精确地定位到模型早期层级中的单个神经元。
双向控制力： 它们不仅能够实现知识的“注入”，也能实现选择性的“遗忘”。

虽然“去词元化”一直是一个已知概念，但我们的研究首次将其精确地定位到负责的神经元，甚至可以追踪到单个神经元。我们也证明了在事实召回过程中，大部分网络可以被冻结，仅通过一个神经元的输出，就能决定模型提取哪个实体的知识。

当前的文献广泛探讨了初始嵌入矩阵的几何拓扑结构，而我们的发现则揭示了大型语言模型利用了一个超越主词元空间的内部、隐式语义字典，其中包含着潜在的嵌入。探索这些潜在语义结构的特定几何特性和层级组织，将是未来可解释性研究的一个关键方向。新媒网跨境预测，随着对这些隐藏机制的深入理解，我们有望开发出更透明、更可控的AI系统，从而更好地服务于人类社会的发展。最后，我们展示了通过操纵这些语义嵌入，可以像进行外科手术般地限制模型识别特定实体的能力。

展望与局限

这项研究为我们理解大型语言模型如何存储和处理知识开启了新的窗口，但也存在一些值得我们关注的局限性，同时也指明了未来的研究方向：

实体覆盖的局限： 我们只成功提取了50个实体中33个（66%）的实体细胞，这表明不同实体在模型内部的表示可能不尽相同。这可能是由于某些实体知名度较低，或者其知识以更分散或更复杂的网络形式存在。
模型特异性： 我们的研究结果主要集中在Qwen2.5-7B模型上，可能无法直接推广到其他架构或不同规模的模型。探索这些机制在不同模型中的普适性将是未来的重要工作。
冗余机制的挑战： 零消融之所以失败，是因为模型内部可能存在我们尚未完全解析的备用路径或冗余机制。尽管负向消融能够绕过这些机制，但深入理解并识别它们对于实现更全面的模型控制至关重要。
不完全隔离： 语义嵌入注入实验中，仍需要解冻后期层（22-27层），这表明模型的知识提取可能并非完全由单个神经元独立完成，下游处理可能仍然存在一定的依赖性。
单神经元假设的不足： 我们的方法可能无法捕捉到那些通过分布式或多神经元编码来表示的实体。未来的研究需要探索更复杂的神经元组合和网络模式，以全面理解模型对实体的表示。
几何特性待探索： 我们尚未深入探究潜在空间中实体嵌入的空间组织或层级结构。了解这些几何特性将有助于我们更好地理解实体之间的关系，以及它们在模型“认知”世界中的地位。

这些局限性并非终点，而是通往更深层理解的起点。新媒网期待，随着技术的不断进步和研究的持续深入，我们能够克服这些挑战，最终构建出更加智能、透明且可控的AI系统，为社会带来更多积极正向的价值。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/ai-model-finds-forget-switch-single-neuron-erases.html

暂无评论，快来抢沙发~

【快讯】最新研究揭示大型语言模型（LLMs）如何存储知识！科学家发现，LLMs内部存在类似人脑“奶奶细胞”的“实体细胞”——特定神经元被激活，即可瞬间解锁关于某实体的全部知识。以美国现任总统特朗普为例，无论输入“Donald Trump”或“트럼프”，模型内单一神经元均能稳定响应。这一机制不仅对名称缩写、错别字及多语言输入表现出惊人鲁棒性，更首次证实通过操控这些“实体细胞”，可精准实现AI知识的“注入”与“遗忘”。这项基于Qwen2.5-7B模型的研究，为AI记忆和遗忘机制提供了全新视角，有望推动更透明、可控的AI系统发展。新媒网跨境持续关注AI前沿。

发布于 2026-01-28

技术前沿

查看人数 95

人民币汇率走势

CNY

亚马逊热销榜

共 0 SKU 上次更新 NaN:NaN:NaN

类目：切换分类