AI指令被篡改,一像素就让红灯变‘弹射’!

当前,人工智能技术正以前所未有的速度发展,其中多模态AI模型的兴起,无疑是令人瞩目的一大亮点。这些模型,特别是视觉语言模型(VLMs),能够将图像信息与文本数据融合处理,极大地拓展了AI的应用边界,也为我们的数字世界带来了全新的交互体验。
以PaliGemma 2这样的领先模型为例,它通过SigLIP图像编码技术,将图像内容转化为AI能够理解的“语言”,再与文本信息一起进行联合处理。这种深度融合的能力,让AI不再局限于单一模态,而是能像人类一样,同时“看”和“读”,从而生成更丰富、更符合语境的输出。例如,它可以根据一张图表生成详细的分析报告,或者实时理解摄像头捕捉到的画面,并进行智能操作,甚至能用于桌面应用的自动化。
然而,就像任何先进技术一样,多模态AI的进步也伴随着新的安全挑战。当这些模型需要处理来自外部的、未经信任的图像时,潜在的风险也随之浮现。新媒网跨境获悉,研究人员发现,通过一些精巧的攻击手段,如像素扰动或局部对抗性补丁,即使是人眼难以察觉的微小改动,也可能操纵模型的输出,使其产生意想不到的结果,甚至生成与原始意图完全相悖的信息。这提醒我们,在享受AI带来便利的同时,更要重视其背后的安全防护。
视觉语言模型:AI感知世界的新范式
视觉语言模型(VLMs)可以看作是大型语言模型(LLMs)的进一步演化。它不仅继承了Transformer架构处理文本的强大能力,更将其拓展到图像领域,使得模型能够同时接收和理解图像与文本输入。
在具体的应用中,VLMs能够执行多种复杂任务,例如为图片生成精准的描述、识别并定位图像中的物体、对图像内容进行分割,甚至回答关于图片的各种问题。这些能力是通过将图像和文本内容共同转化为模型能够处理的统一“令牌”(tokens)来实现的。
以开源模型PaliGemma 2为例,其工作原理清晰地展示了这种融合机制。如下图所示,PaliGemma 2首先会利用SigLIP图像编码器对输入图像进行编码,将图像转化为一组具有语义信息的令牌。随后,这些图像令牌会与文本令牌(例如用户输入的提问)拼接在一起,共同传递给核心的Gemma 2模型进行处理,最终生成文本输出。
图1:PaliGemma 2模型架构示意图
这种强大的图像与文本联合处理能力,使得VLMs在很多场景下都有着广阔的应用前景。然而,这也引出了一个核心问题:当图像输入环节被巧妙地“干预”时,会对整个模型的输出产生多大的影响呢?经典的对抗性图像生成技术,是否也能适用于VLMs?这些问题的答案,将直接影响到我们如何确保那些集成了VLMs的控制系统或物理系统的安全性。
从图像分类到多模态:对抗性攻击的演进
对抗性机器学习领域,早在2014年就引起了广泛关注。当时,研究人员发现,通过对图像进行人眼几乎无法察觉的像素级微小扰动,就可以完全改变图像分类模型的判断结果。
如下图所示,原论文《神经网络的奇特特性》展示了这种现象:左侧的原始图片都能被模型正确识别,但经过中间列(为便于观察而放大)的像素扰动后,右侧生成的新图片看起来与原始图片几乎一模一样,但却被模型统一误识别为“鸵鸟”。这种现象被称为“分类器规避”。
图2:对抗性像素扰动改变了图像分类结果
随着对抗性机器学习研究的不断深入,研究人员开发出了越来越复杂的攻击算法和工具。这些攻击大多通过直接访问模型的梯度信息(称为“开盒攻击”),或者通过采样方法近似梯度信息(称为“黑盒攻击”),来生成既有效又“感知上难以察觉”的扰动。其中一种简单而有效的方法是“投影梯度下降”(PGD),它将对抗样本的生成视为一个受约束的优化问题。PGD会迭代地沿着梯度方向调整输入,同时确保扰动幅度保持在很小的范围内,以限制其可感知性。
随着研究社区对实际应用场景的关注日益增加,威胁模型也开始向现实世界靠拢。在实践中,攻击者很少能获得整个图像的像素级控制权。相反,他们可能只能物理修改物体的一部分,但对可感知性的限制也可能较少。这促使了“对抗性补丁”的出现。如下图所示,攻击者可以优化图像中的局部区域,将其打印出来并物理应用到真实世界中,从而干扰AI模型的判断。
图3:添加对抗性补丁将“香蕉”的分类结果变为“烤面包机”
那么,这些针对传统图像分类模型的攻击思路,又能否成功应用于更为复杂的多模态视觉语言模型呢?
为VLMs构建对抗性图像:交通灯的“指令反转”
让我们通过一个具体的场景来探讨如何为VLMs构建对抗性图像。假设有一个VLM系统,它需要处理一张红灯的交通信号灯图片(如图4所示),而模型接收到的文本提示是固定的:“我应该停还是走?”(should I stop or go?)。在这个场景中,攻击者能够对输入的图像进行一定程度的控制。我们关注的是“开盒攻击”,即攻击者在生成对抗性输入时,能够完全访问模型的内部结构和输入提示。
图4:未修改的交通信号灯图片
在新媒网跨境的测试中,未经修改的交通信号灯图片被VLM处理后,模型正如预期地输出了“停止”(stop)的指令,如图5所示。这表明模型正常工作,能够正确识别红灯并给出相应的指示。
图5:对照测试显示模型输出为“停止”
在这个过程中,交通灯的图像首先通过SigLIP编码器处理,并投影到令牌空间。然后,这些图像令牌与“
像素级扰动:人眼不可见的“欺骗”
在攻击传统的图像分类模型时,通常会利用模型的概率输出来衡量“损失”,通过修改像素值来降低图像被正确分类的可能性(非定向攻击),或者最大化其被分类为特定错误类别的可能性(定向攻击)。对于PaliGemma 2这样的VLM,我们同样可以利用其输出的“令牌对数几率”(token logits)来进行攻击。由于模型在贪婪采样时总是选择概率最高的令牌,我们可以利用这一点。
核心思路如下:
- 首先,识别我们希望模型输出的词汇(如“go”)和我们希望模型避免输出的词汇(如“stop”)所对应的令牌ID。
- 通过模型输出的对数几率,我们可以比较“停止”和“通行”这两个令牌的相对可能性。
- 接着,定义一个“损失函数”,衡量我们期望的输出(例如“go”)与不期望的输出(例如“stop”)之间对数几率的差异。这个损失函数能够量化我们当前的图像对于实现攻击目标而言是“好”还是“坏”。
利用这些基本元素,我们可以运行一个优化循环来生成一个对图像的扰动掩码。随着这个循环的进行,我们可以监测对抗性图像中“停止”与“通行”令牌的对数几率。我们会发现,只需要很小的扰动,“通行”的对数几率就会迅速超过“停止”。这表明,经过修改的交通信号灯图片在通过PaliGemma 2处理后,将输出“通行”的指令,如图6所示。
以下是优化过程中的对数几率变化示例:Step 4/20 | loss=1.3125 | logit_stop=13.125 | logit_go=11.812Step 8/20 | loss=-4.1875 | logit_stop=9.062 | logit_go=13.250Step 12/20 | loss=-6.5938 | logit_stop=6.969 | logit_go=13.562Step 16/20 | loss=-7.8125 | logit_stop=5.938 | logit_go=13.750Step 20/20 | loss=-8.1250 | logit_stop=5.562 | logit_go=13.688
图6:人眼几乎无法察觉的像素修改,使模型输出从“停止”变为“通行”
VLM的特殊性:从固定分类到无限生成
与传统的图像分类器不同,后者通常只局限于一组固定的图像类别(例如,只有“停止”和“通行”两个选项),VLMs的强大之处在于其“生成性”输出能力,这意味着它的输出空间要宽广得多。对于VLMs而言,模型能够输出的是Gemma语言模型所能生成的任何合法令牌。实际上,我们可以将模型视为一个具有与可用令牌数量一样多的“类别”的分类器。
这意味着,攻击者不仅可以像传统分类器那样,让模型将“停止”误判为“通行”,还可以引导模型生成一些应用程序设计者可能完全没有考虑到的输出。例如,使用与之前相同的攻击生成过程,但这次我们将目标设置为生成“弹射”(eject)而不是“通行”,结果模型就可能输出一个完全出乎意料的指令,如图7所示。
图7:人眼难以察觉的像素修改,使模型输出从“停止”变为“弹射”
这为系统设计者敲响了警钟:在设计处理非信任图像的系统时,必须充分考虑系统对“意外输出”的承受能力和处理机制。新媒网跨境认为,系统的安全性与鲁棒性,远不止核心模型的特性那么简单,它还包括了输入输出的净化处理、全面的威胁建模以及完善的安全控制体系。例如,引入类似NeMo Guardrails这样的安全防护机制,可以在模型输出之前进行内容过滤和风险评估,从而有效阻止潜在的有害或非预期指令的执行。
攻击方法的延伸:对抗性补丁与鲁棒性提升
在许多实际场景中,攻击者可能无法控制整个视觉环境的像素值,而只能访问其中的一部分。这在摄像头捕捉的画面中很容易理解,但在计算机使用代理中也同样如此,例如攻击者可能只能修改浏览器中显示的横幅广告的一部分。在这种情况下,可以通过仅优化被控制的像素区域来生成“对抗性补丁”。
例如,下图展示了一个通过在白色方块区域生成对抗性输入来模拟物理贴纸的攻击。通过优化这个局部区域的像素,模型能够被“欺骗”,从而使交通灯的输出从“停止”变为“通行”。
图8:一个物理贴纸就能使模型输出从“停止”变为“通行”
然而,这些对抗性补丁往往是脆弱的,它们的攻击成功率很大程度上取决于放置位置、光照条件、摄像头噪声、阴影以及其他难以控制的变量。在实践中,这种方法生成的补丁往往过于敏感,以至于作为物理贴纸攻击的效果不佳,因为它们可能需要像素级的精确放置和对齐。
为了构建更具“鲁棒性”的攻击,研究人员引入了“期望变换”(Expectation Over Transformation, EOT)扰动技术。通过在攻击生成循环中随机移动或旋转图像、调整亮度,并添加其他逼真的噪声,可以模拟真实世界的复杂条件,从而生成更难以被轻易破解的对抗性样本。
此外,攻击者在设计攻击时也应考虑其优化约束。“人眼不可察觉”的限制在某些情况下可能并不重要,例如当攻击目标是一个完全自主运行的系统时,攻击者可能并不需要确保其扰动是隐形的。限制越少,攻击者成功的可能性就越大。
展望未来:构建更安全的AI生态
视觉语言模型(VLMs)无疑拓展了大型语言模型(LLMs)的现有能力,为机器人技术、智能助手等领域开启了众多实用的多模态应用。然而,正如我们所看到的,图像作为VLM的输入提示之一,同样可以被用来操纵模型输出,其方式与非信任文本攻击有着异曲同工之妙。
回顾并学习以往对图像分类器和嵌入模型进行攻击和防御的经验,对于识别潜在风险、制定有效的缓解措施,从而构建鲁棒的AI系统至关重要。这不仅仅局限于视觉模态,安全团队也应审视过去针对视频、音频以及其他数据模态的对抗性机器学习研究成果,以评估并提升其多模态AI应用的弹性。
鉴于对抗性样本可以程序化生成,它们理应被用于强化训练、评估和基准测试环节,以提高最终系统的鲁棒性。在新媒网跨境看来,这意味着我们不仅要积极探索如何生成这些攻击,更要善用它们来“磨砺”我们的防御体系。在构建以VLM为核心的智能体系统时,持续根据其自主性水平和威胁模型进行评估,将是确保系统安全、可靠运行的关键。通过不断的学习、研究与实践,我们才能共同推动AI技术在安全、可信赖的道路上行稳致远。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-hack-1-pixel-stop-to-eject.html


粤公网安备 44011302004783号 











