AI惊人!安全干预竟让模型能力飙升,UGI破32!

近年来,人工智能技术飞速发展,大型语言模型(LLM)的进步尤其引人注目。它们在各种任务中展现出令人惊叹的能力,但随之而来的,是如何确保这些模型行为符合人类价值观,避免产生有害或不恰当的回应。这是一个全球性的挑战,也是我们所有AI研究者和开发者共同关注的焦点。新媒网跨境了解到,在这项前沿技术领域,确保模型在保持强大功能的同时,能够有效“拒绝”不当指令,已成为衡量AI系统成熟度的重要标准。
传统的“消除技术”(Abliteration),就是为了解决这一问题而生。简单来说,它通过识别并干预语言模型内部“拒绝行为”相关的激活方向,从而移除模型中的拒绝倾向。这项技术在机制可解释性领域取得了不俗的成果,帮助我们理解LLM是如何形成拒绝行为的。最初,研究者们通过一个单一的“平均拒绝方向”来代表这些倾向,并将其从模型的关键组成部分中减去。虽然这种方法在实践中能有效引导模型行为,但它也像一把“大刀”,有时会误伤模型的其他功能。
为了让干预更加精准,研究团队不断进行改进。首先是“投影消除技术”(Projected Abliteration),它不再简单地移除整个拒绝方向,而是只移除其中与机制相关、真正导致拒绝行为的那些组件。这就像外科医生手中的手术刀变得更加锋利和精准,只切除病灶,而不影响周围的健康组织。实践证明,大型语言模型确实能够将拒绝行为与有害性信息分开编码,这项改进也证实了这一重要发现。
然而,探索的脚步并未停止。紧随其后的是“双重投影消除技术”(Biprojected Abliteration),它进一步提升了精度。这项技术不仅移除了模型某一特定层测得的拒绝行为组件,还会同步移除另一层中对应的拒绝组件。理论上,这能最大程度地避免在干预过程中干扰模型无害方向的表达。但有趣的是,在实施这项技术后,一些模型的安全拒绝行为却又悄然回归了。这让研究人员意识到,当前的干预方法可能仍存在一些未被充分考虑的因素,尤其是在涉及模型权重修改和权重范数时。
在传统的消除技术中,以及我们之前改进的版本中,研究者们通常会将归一化后的拒绝方向从模型特定层(如自注意力机制的输出投影层self_attn.o_proj和多层感知器下投影层mlp.down_proj)的残差流中直接减去。尽管这在实践中能有效引导模型行为,但从数学原理上讲,这种做法并不严谨。首先,被移除的方向不仅包含了方向性信息,还可能包含了单位幅度的分量,使得解释变得复杂;其次,这种移除方式没有充分尊重神经元之间的相对重要性,可能导致不可预测的尺度效应;更重要的是,它可能会以意想不到的方式扰乱权重矩阵的几何结构。
长期以来,业界普遍认为,对模型内部机制进行干预,可能会以牺牲模型原有能力为代价。例如,进行消除操作可能会显著降低模型的推理能力。然而,最新的研究成果却颠覆了这一传统观念。我们提出了一种“范数保持”的方法,即在移除拒绝方向的同时,严格保持了模型权重的范数。令人惊喜的是,这项创新不仅有效地移除了拒绝行为,还在特定推理任务(如NatInt基准测试)上,使模型的性能相较于基线模型有所提升(从18.72提高到21.33),同时在拒绝行为消除(UGI基准测试)上也取得了显著效果(从19.58提高到32.61)。这无疑为我们打开了一扇新的大门,预示着AI模型在安全性和能力之间可以找到更好的平衡点。
精准干预:数学之美与工程实践
我们提出的这项精妙的数学干预方法,其核心理念是“只修正方向,不改变力量”。想象一下,一个模型就像一个经验丰富、能力全面的大脑。如果我们要调整它的一些不恰当的“思考习惯”,我们不应该粗暴地削弱它的大脑功能,而是应该精准地引导它向正确的方向思考,同时保持其固有的思考强度和结构。
具体来说,我们不再简单地从目标权重中减去整个拒绝方向,而是只减去其方向性组件,同时精心地保留权重的范数。保留范数的重要性不言而喻:它能够更好地尊重现有层归一化机制,维持模型层归一化在训练时所期望的相对激活尺度结构。这意味着,通过这种方式进行干预,模型在内部处理信息时,其数据流的平衡性不会被破坏,从而减少了对模型推理能力的意外损害。更令人欣慰的是,这种消融操作仍然可以作为一种“秩1修改”来实现,这使得整个方法的计算效率依然很高,不会引入额外的巨大开销。
让我们用更形象的比喻来解释这个过程:假设我们有一个复杂的三维雕塑,代表着模型的权重矩阵。雕塑的形状决定了模型处理信息的方式,而雕塑的“体量”或“材质密度”则代表着权重的大小和重要性。传统的消除方法,就像是用凿子直接凿掉一部分雕塑,这样雕塑的形状和体量都改变了。而我们提出的范数保持方法,则更像是在不改变雕塑总“体量”的前提下,巧妙地调整雕塑的某个局部朝向。
其数学操作的核心步骤如下:
首先,我们需要对拒绝方向进行归一化,确保它只是一个纯粹的方向向量,不带有任何额外的尺度信息。
其次,对于权重矩阵中的每一行,我们将其分解为两个部分:一个是其“大小”(即范数),另一个是其“方向”。这就像是把每个小箭头都拆解成它的长度和指向。
接着,在只关注这些“方向”的部分时,我们计算每个输入维度与拒绝方向的对齐程度,这可以看作是一种“投影系数”。然后,我们用这个投影系数,通过一个巧妙的“秩1更新”来移除拒绝方向的组件。完成移除后,我们再次对每个方向向量进行归一化,确保它们仍然是单位长度,为下一步重组做好准备。
最后,我们将这些修正后的“新方向”与最初分解出来的“大小”部分重新组合起来,形成新的权重矩阵。通过这种方式,我们确保了新的权重矩阵中每一行的范数都与原始权重矩阵对应行的范数完全相同。这意味着模型已经学习到的重要性结构得到了完整保留,同时计算过程被巧妙地引导,避开了那些导致拒绝行为的方向。
这张图直观地展示了这种干预的原理。一个权重向量(W_i)被分解为范数(其长度)和方向(W_dir_i)。拒绝方向(r)与权重向量的方向(W_dir_i)存在一个夹角。我们通过减去拒绝方向的投影部分(即图中的蓝色虚线箭头部分),来调整W_dir_i的方向,使其偏离拒绝方向,但调整后的新方向(W_new_dir_i)的长度仍然被重新归一化为单位长度,确保了原始“力量”的保持,只改变了“指向”。
在实际的PyTorch代码实现中,这个过程也显得非常简洁而高效。核心思想就是:
- 归一化拒绝方向,使其成为一个纯粹的“指引”。
- 分解权重矩阵,提取每个输出神经元的“大小”和“方向”。
- 对这些“方向”进行干预,将拒绝方向的成分从其中剔除。这个过程巧妙地使用了
torch.outer来构建秩1更新,效率极高。 - 将调整后的“新方向”重新归一化。
- 将调整后的“新方向”与原始的“大小”重新组合,得到新的权重矩阵。
这样的实现确保了核心算法的精确性和计算效率,为大规模模型的应用奠定了基础。
import torch
# Core implementation (excerpt from complete function)
"""
Args:
W: Weight matrix of shape [out_features, in_features]
refusal_dir: Refusal direction vector of shape [out_features]
scale_factor: Scaling factor for ablation strength (default: 1.0)
"""
# Normalize refusal direction
refusal_normalized = torch.nn.functional.normalize(refusal_dir, dim=0)
# Decompose weight matrix
W_norm = torch.norm(W, dim=1, keepdim=True) # [out_features, 1]
W_direction = torch.nn.functional.normalize(W, dim=1) # normalized per output neuron
# Apply abliteration to the DIRECTIONAL component
projection = torch.matmul(refusal_normalized, W_direction) # [in_features]
W_direction_new = W_direction - scale_factor * torch.outer(refusal_normalized, projection)
# Re-normalize the adjusted direction to enable recombination
W_direction_new = torch.nn.functional.normalize(W_direction_new, dim=1)
# Recombine: keep original magnitude, use new direction
W_new = W_norm * W_direction_new
这段代码的精妙之处在于,它通过几个简单的张量操作,就实现了对权重矩阵的“方向性”调整,同时确保了原始“强度”的完整保留。这不仅提升了干预的数学严谨性,也为模型能力的稳定发挥提供了坚实保障。
层级选择:精准打击的核心策略
在大型语言模型中,数以百计的层级共同构成了其复杂的神经网络结构。并非所有的层级都同等重要,也并非所有层级都以相同的方式编码着拒绝行为。因此,如何从众多层级中,精准地选择出最适合进行干预的层,成为了这项技术成功的关键。这就像中医治病,需要“辨证施治”,找到病灶的根本所在,才能药到病除。
研究团队开发了一种系统性的层级选择方法,这是一种复合质量指标,它综合考虑了三个关键因素,旨在帮助我们找到那些既能清晰表达拒绝信号,又对干预效果至关重要的层级。
首先是信噪比(SNR)。这个指标衡量的是拒绝方向的“强度”相对于模型平均激活的“噪声”水平。具体来说,它计算的是拒绝方向的范数与有害和无害激活平均值的最大范数之间的比值。信噪比越高,意味着该层级所表达的拒绝信号越清晰、越突出,就像在一片嘈杂中,一个清晰的声音更容易被识别出来。高信噪比的层级,是进行干预的理想目标,因为它们的拒绝信号强度足够,干预效果也更容易显现。
其次是余弦相异度(Cosine Dissimilarity)。这个指标关注的是有害激活平均值与无害激活平均值之间的角度分离程度。通俗地说,它衡量的是模型内部在处理有害信息和无害信息时,其激活模式在多大程度上是不同的。如果两个激活模式在向量空间中方向相差很大(即余弦相似度很低,相异度很高),就表明模型能够清晰地区分有害与无害信息,它们在表征几何上具有明显的区别。高余弦相异度意味着这些层级是关键的“决策点”,干预这些点能够更有效地引导模型的行为。
最后,我们将上述两个指标融合成一个复合质量得分:质量 = 信噪比 × (1 - 余弦相似度)。这个复合得分旨在全面评估一个层级的干预潜力。得分越高,表明该层级不仅拒绝信号强劲(高信噪比),而且在区分有害与无害信息方面表现突出(高余弦相异度)。通过绘制所有层级的这些指标曲线,研究人员能够清晰地识别出那些同时具备高信噪比和强余弦相异度的候选层级,尤其关注那些指标发生急剧变化的层级,因为它们可能代表了模型决策过程中的关键转折点。
此外,为了确保所选拒绝方向在应用于相邻或更早层级时也能保持有效性,研究团队还会追踪拒绝方向在连续层级中的余弦相似度演变。如果方向的一致性表现出稳定性,就意味着这个拒绝方向具有强大的跨层级适用性。
虽然这种层级选择方法在一定程度上带有启发式的特点,但它深深植根于我们对拒绝表征几何结构模式的观察。未来的工作可能会通过更系统的消融研究,进一步形式化最佳层级选择策略。值得一提的是,这项启发式方法在计算上极其高效。仅需一次推理过程就能捕捉所有层级的激活数据,而质量指标的计算也是在事后完成的。与那些需要多次模型评估的迭代搜索方法不同,这种分析方法对标准消除技术的工作流程几乎没有增加额外的开销,仅仅是从已有的测量数据中提取了更多有价值的信号。
以Gemma3 12B Instruct模型为例,该模型共有48个层级(编号从0到47)。经过精心分析,我们最终选择了第23层和第29层的测量数据作为广泛应用的干预依据。事实证明,精确地获取拒绝方向和平均无害方向的测量数据,对于后续的精细化改进至关重要。
成果斐然:能力与安全的双重提升
新媒网跨境获悉,通过这种精益求精的“范数保持双重投影消除”方法,我们再次对Gemma3 12B Instruct模型进行了干预。与以往一样,我们应用了默认的1.0比例因子,并对模型中的第11层到第41层进行了干预。
实验结果令人振奋!正如我们所期待的,模型在面对有害测试提示时,成功绕过了拒绝,这意味着我们有效移除了其不必要的安全防护。更重要的是,在非正式测试中,模型保留了更多的原有能力,并没有像传统方法那样出现明显的性能下降。在统一有害性指数(UGI)排行榜上,我们发布的“grimjim/gemma-3-12b-it-norm-preserved-biprojected-abliterated”模型在UGI和NatInt(自然语言推理)两个基准测试中均取得了最高分,超越了我们之前发布的所有同基线模型消除变体,甚至优于基线Instruct模型本身。这充分证明了我们新方法的卓越性能。
值得一提的是,在进行激活测量时,为了更好地辨别有害和无害方向之间的拒绝方向,我们应用了0.995强度的幅度稀疏化处理。这是因为经验观察表明,模型中强大的异常激活特征,往往能很好地区分这些方向。此外,为了最大限度地提高数值稳定性,尽管模型最初是以16位bfloat16浮点格式发布的,我们在中间计算过程中仍然坚持使用32位浮点精度。之前的研究已经表明,使用16位bfloat16进行中间计算会导致次优结果。因此,对于那些激活幅度方差较大的模型,我们强烈建议至少采用32位浮点精度进行计算,以确保结果的准确性和稳定性。
深度解读:超越表象的机制洞察
这项研究的成功,不仅在于提供了一种更有效的干预方法,更重要的是,它从理论层面揭示了拒绝方向的本质。通过成功地将干预范围缩小到仅包含方向性组件,并且精确地保持了模型权重的范数,我们明确证实,仅仅是拒绝行为的“方向”本身,而非方向与幅值效应的纠缠,才是决定消除效果的关键因素。
然而,尽管我们有了这样的理论基础,我们仍需警惕。移除与有害性评估相关的方向性组件,即使是再精细的操作,也可能以某种意想不到的方式降低模型的安全性。正如外媒报道,有研究团队在2025年发表的论文中指出,即使是对一些看似良性的特征进行激活引导,也可能损害大型语言模型的安全性。这提醒我们,在表征空间中的任何干预,都可能对模型的安全机制产生意想不到的后果。
在Gemma3 12B Instruct模型案例中,保留模型权重的幅度显得尤为重要。因为经验表明,那些在幅度上表现出强烈离群值的激活,几乎肯定编码着重要的行为信息,这些信息对于保持模型的功能性至关重要。这一点与2024年另一项研究团队的发现不谋而合,他们强调了大型语言模型中海量激活的重要性。
UGI排行榜的基准测试结果清晰地展示了我们新方法相对于先前消除变体的显著改进:
| 模型变体 | UGI得分 | NatInt得分 |
|---|---|---|
| Gemma-3 12B Instruct (基线) | 19.58 | 18.72 |
| 标准消除版 | 32.08 | 18.64 |
| 范数保持双重投影版 | 32.61 | 21.33 |
值得注意的是,虽然“标准消除版”在解除审查(UGI得分)方面取得了与我们新方法相似的效果,但它却出现了轻微的能力退化(NatInt得分从基线的18.72下降到18.64)。相比之下,我们提出的“范数保持”方法不仅在解除审查方面同样高效,更重要的是,它显著提升了模型的推理能力(NatInt得分高达21.33)。
这一发现与最近一项关于“安全税”现象的观察不谋而合。外媒报道,有研究团队在2025年指出,安全对齐可能会降低大型语言模型的推理能力。而我们的改进结果表明,移除方向性编码的安全约束,可能会解锁模型中被安全机制所抑制的潜在推理能力。当然,这种关系仍需进一步深入研究。
早期的经验研究曾表明,为了使模型对有害提示产生预期的符合性反应,需要对多个层级进行干预。现在,我们从2023年发表的一篇名为《九头蛇效应:语言模型计算中的自修复机制》的论文中找到了理论依据。该研究团队指出,当单个层级被消除时,其他层级会自适应地进行补偿,以恢复大约70%的原始计算能力。这种强大的“自修复机制”解释了为什么单层干预通常不足以实现稳健的消除效果,因为模型会本能地绕开局部的损伤。
多层级干预策略直接解决了这一挑战:通过同时修改多个层级中的自注意力输出投影和多层感知器下投影,我们可以有效地“斩断九头蛇的多个头”,从而阻止补偿机制恢复拒绝行为。通过对层级测量进行明智的选择,并设定一系列干预层,一个结构化的“秩2L”干预(其中L是目标层级的数量)可以在克服自修复机制的同时,通过每个权重矩阵的局部秩1更新,保持计算效率。这种“九头蛇效应”在事后解释了为什么在“双重投影消除”过程中,安全拒绝行为会部分回归。
我们将传统的消除管线重新构建为三个截然不同的阶段:
- 全面测量:对所有层级的激活进行测量。
- 分析性层级选择:通过质量指标进行层级分析和选择。
- 目标性干预:对选定的层级进行精准干预。
这种分离策略赋予了我们巨大的灵活性:我们不再拘泥于选择一个“最佳”层级,而是可以挑选多个高质量的候选层级进行干预,从而实现克服九头蛇效应所需的多层级策略,同时通过每个权重修改的秩1结构保持计算效率。
最后,从这种理解中产生了一个有趣的实际推论:干预层级的数量提供了一个粗略但有效的机制,用于调节合规性与安全性之间的权衡。较少的层级允许更多的自修复,从而保留一些拒绝能力;而更多的层级则能更彻底地克服补偿机制。这为开发者提供了一个可调参数,可以根据具体的使用场景和风险承受能力来校准模型行为。这意味着我们可以根据实际需求,打造出不同“脾气”和“原则”的AI助手,让它们更好地服务于人类社会的发展。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-safety-no-tradeoff-perf-ugi-32-plus.html


粤公网安备 44011302004783号 













