AI安全警钟:177亿黑产,评估预算低到致命!

2026-05-12人工智能

AI安全警钟:177亿黑产,评估预算低到致命!

近年来,人工智能技术突飞猛进,深刻改变着我们的生活与工作方式。从智能助手到自动驾驶,AI的触角正伸向社会各个角落。然而,伴随其强大能力而来的,是日益严峻的安全挑战。面对这些挑战,我们不禁要问:当下的AI安全评估,真的能跟上技术发展的步伐吗?
ChatGPT Image May 11, 2026, 05_47_25 PM

传统上,我们评估一个AI系统是否安全,往往聚焦于一个直接的问题:“这个模型会做出危险行为吗?”然而,对于今天高度复杂且不断演进的AI系统来说,这个问法似乎过于静态了。真正有意义的问题,应该更加动态化,它变成了:“如果这个模型被给予更多时间、更多样本、更多工具、更多尝试,或者更高的推理预算,它会做出危险行为吗?”

想象一下,一个AI模型在第一次面对有害请求时,能够果断拒绝。在一次简单的、成本低廉的评估中,这无疑是成功的表现。但现实世界中的恶意攻击者,并不会止步于一次尝试。他们可以生成成千上万种不同的提示变体,利用另一个AI模型来优化失败的攻击,甚至添加长上下文的演示,将模型封装在智能体循环中,赋予它各种工具,并且只在预期收益高的情况下投入更多精力。

因此,对AI安全性的考量,不再仅仅是“模型是否拒绝了第一个提示?”而更深入地变为:“随着攻击者投入更多推理时间的努力,有害行为成功的概率会如何变化?”这种视角的转变至关重要,因为它揭示了一个核心事实:AI模型的实际能力在部署后并非一成不变,它会随着推理过程中投入的计算和优化压力,发生显著变化。

当前,我们看到越来越多的推理技术,如思维链提示(Chain-of-thought prompting)、自洽性(self-consistency)、树形搜索(tree search)、最佳-N采样(best-of-N sampling)、智能体支架(agentic scaffolds)、长上下文提示(long-context prompting)以及工具使用循环(tool-use loops),都将推理过程转变为一个自适应的动态过程。这意味着,一个在低成本、单次评估下看起来很安全的模型,在高强度对抗性评估中,可能就无法维持其安全性了。

这并非否定静态安全检查的价值,它们依然是捕捉明显缺陷的有效手段。但它提醒我们,那些成本低廉的安全评估,仅仅是宏大风险图景中的一个测量点。我们必须认识到,AI的真正风险,往往隐藏在更深层次、需要更多投入才能被发现的地方。

对于特定的AI模型、部署配置以及攻击策略,我们关注的不再只是简单的通过或失败的二元结果,而是一个完整的风险曲面:即在给定计算预算下,有害行为成功的概率。这里所说的“预算”,含义非常广泛,它可以指样本数量、攻击尝试次数、人工审查步骤、检索文档数量,或者更直观地,是所投入的经济成本。

传统的安全基准测试,通常只在评估者设定的有限预算下进行评估。然而,与安全紧密相关的问题,往往需要考虑攻击者可能投入的预算。如果攻击者愿意投入的预算远超评估者,那么即使低预算下的安全评估显示系统能够抵御弱小攻击,也无法证明它能抵御那些出于经济动机而发起的、精心策划的攻击。新媒网跨境了解到,这种“评估者预算低,攻击者预算高”的不对称性,是当前AI安全评估面临的巨大挑战。
ChatGPT Image May 11, 2026, 06_22_52 PM (2)

图1:随着测试时间计算量增加的风险曲线示例。实线部分代表了在评估预算B_{\text{eval}}内直接测得的低预算区域,而虚线部分则描绘了向攻击者预算B_{\text{adv}}可能更高预算的预测。S形曲线仅为示意,实际上风险曲线会根据模型、支架、攻击者和部署环境的不同而变化巨大。

测试时间计算改变模型能力边界

在讨论AI模型的安全能力时,测试时间计算量往往被简单地理解为“更多的推理令牌”。但这只是冰山一角。在实际应用中,许多推理时的资源投入都能显著改变模型的行为模式和能力边界。新媒网认为,理解这些机制对于构建更安全的AI至关重要。

机制 规模化内容 安全相关性 示例证据
自洽性 采样的推理路径 模型可能一次失败,但在重复推理尝试后成功 自洽性在GSM8K上报告+17.9%的增益,在SVAMP上+11.0%,在AQuA上+12.2%。
树形搜索 探索的中间状态 单次生成可能遗漏在搜索下出现的能力 思想树(Tree of Thoughts)报告GPT-4在链式思考下解决4%的24点游戏,而在树形搜索下达到74%。
自适应计算分配 每个问题的预算 攻击者可以精确地将更多精力投入到防御薄弱之处 某研究报告称,相比最佳-N方法效率提升4倍以上,在FLOP匹配下,测试时间计算甚至能击败一个大14倍的模型。
最佳-N采样 提示变体或完成 单次尝试的低风险可能累积成高风险 最佳-N越狱方法在GPT-4o上报告89%的攻击成功率,在Claude 3.5 Sonnet上使用10,000个增强提示报告78%。
长上下文演示 上下文示例数量 长上下文成为攻击面 多次越狱发现攻击效果遵循幂律,可达数百次。
智能体支架 工具调用、重试、子智能体、记忆 滥用可能只出现在真实的系统环境中 已有研究表明,LLM网络入侵智能体无需人工反馈即可执行盲数据库模式提取和SQL注入等任务。

我们可以看到,推理过程正变得越来越像一场“搜索”,而搜索能力的提升,直接拓展了AI的能力边界,包括其潜在的危险能力。

例如,自洽性机制,允许模型通过生成并比较多个推理路径来验证答案。这就像一个人在解难题时,多想几种办法,反复检查,最终找到正确答案。如果模型在第一次尝试时因为某些偏差拒绝了有害请求,但在多次尝试后,通过聚合不同推理路径的结果,反而可能“找到”绕过安全防护的方法。

树形搜索则更进一步,它不再是简单的线性尝试,而是像下棋一样,探索各种可能的中间状态和决策分支。某研究显示,GPT-4在面对复杂逻辑问题时,通过传统的链式思考模式只能解决少量问题,但一旦应用树形搜索,解决能力便大幅提升。这种能力的飞跃,同样可能被用于寻找系统的漏洞。

自适应计算分配则代表了一种“智慧”的攻击方式。攻击者不再盲目投入资源,而是像精准打击一样,将更多计算资源集中在那些可能存在弱点或预期收益最高的地方。这意味着,系统的防御必须是全面的,不能有明显的短板。

最佳-N采样长上下文演示也值得我们高度关注。前者通过大量生成提示变体,提升了攻击成功的概率;后者则表明,随着上下文信息的增加,模型可能暴露出新的攻击面。这两种机制都说明,如果评估仅仅基于少量、简短的交互,那么系统潜在的风险就很难被发现。

最后,智能体支架的出现,更是将AI的攻击面推向了一个新的高度。当AI模型不再仅仅是语言处理单元,而是被赋予了工具使用、记忆维护、子任务分配等能力,成为一个能够与外部环境互动的智能体时,其行为的复杂性和不可预测性将急剧增加。攻击不再局限于直接的提示,而是可能通过一系列看似无害的交互,最终导致系统被滥用。

攻击面远不止直接有害提示

AI系统的攻击面,早已超越了用户直接输入的有害提示。当AI系统被赋予检索文档、浏览网页、阅读邮件、调用API接口、维护记忆以及与外部环境互动等能力时,攻击面就从“用户输入了什么?”转变为“系统消费、存储、信任和处理了哪些信息?”

“间接提示注入”就是一个很好的例子。外媒曾有研究指出,当AI模型与应用程序深度集成时,数据与指令之间的界限变得模糊,攻击者可以将恶意指令植入到可能被系统检索到的内容中,而非直接在用户提示中。这些恶意指令可能导致数据窃取、应用程序被操纵,甚至控制API调用,从而对系统造成严重破坏。

记忆增强型智能体更是加剧了这一问题。“智能体投毒”(AgentPoison)攻击就是通过污染智能体的长期记忆或知识库,来攻击通用型和基于检索增强生成(RAG)的AI智能体。研究人员报告,这种攻击的平均成功率超过80%,而对正常性能的影响不足1%,投毒率也低于0.1%。

这明确说明,一次简单的一次性拒绝测试,根本无法捕捉到这些隐蔽而复杂的风险。一个模型即使能够拒绝直接的有害请求,也可能在攻击通过检索到的网页内容、被污染的记忆、恶意文档、受损的工具输出,或者一系列看似无害的交互后,最终陷入失控。新媒网跨境获悉,这种多维度、渗透式的攻击方式,对AI安全评估提出了更高的要求。

经济不对称性:攻击者与评估者的博弈

在AI安全评估中,存在着一个显著的经济不对称性。评估者的预算往往受限于研究资金,而攻击者的预算则由其预期的攻击收益决定。我们可以用一个简单的公式来表示攻击者的决策:攻击者会选择一个预算b,使其成功攻击的价值V乘以攻击成功概率R(b),再减去计算、工具使用和人工成本C(b)后的净收益最大化。通俗地说,一个理性的攻击者会持续投入,只要其边际预期收益超过边际成本。

这并非意味着每个攻击者都拥有顶尖实验室的资源,而是说在某些高收益的滥用领域,即便花费数千乃至数万美元在推理计算上,只要预期的回报足够大,这种投入也是完全合理的。网络犯罪的巨大经济规模,使得我们无法忽视这一点。

以美国为例,根据美国联邦调查局(FBI)2025年的互联网犯罪报告(IC3),仅在2025年,网络诈骗相关的投诉就高达452,868起,报告损失金额约177亿美元。这占当年IC3接到投诉的45%,报告损失的85%。此外,外媒区块链分析机构Chainalysis报告显示,2024年从加密货币平台被盗的资金增至22亿美元,涉及303起黑客事件。

这些惊人的数字,足以说明潜在的攻击者拥有巨大的经济驱动力,去投入资源寻找AI系统的漏洞。评估者通常会问:“我们能负担得起测试什么?”而攻击者则会问:“为了成功,我们值得投入什么?”如果安全评估仅仅回答了第一个问题,那么它很可能系统性地低估了第二个问题所带来的真实风险。新媒网跨境认为,这种经济层面的不对称,是我们在设计AI安全防御体系时必须正视的核心挑战。

成本高昂的评估与责任归属

意识到测试时间计算量(TTC)的重要性,并进行相应的安全评估,无疑是一项耗资巨大的工作。近期的一项“评估的评估”分析指出,AI评估成本已经跨过了一个门槛,这正在改变谁能够参与其中。报告显示,一个名为“整体智能体排行榜”(Holistic Agent Leaderboard, HAL)的评估项目,在9个模型和9个基准测试上进行了21,730次智能体运行,总花费约4万美元。更令人震惊的是,对一个前沿AI模型进行一次GAIA基准测试,在不使用缓存的情况下,单次运行成本就可能高达2,829美元。

高成本问题之所以关键,是因为那些需要投入大量精力才能触及的场景,往往正是对安全影响最大的高风险区域。如果独立的评估机构无法承担这些测试的成本,那么关于前沿系统风险的最有力证据,将持续集中在那些开发和部署这些系统的大型组织内部。这无疑造成了信息和能力的垄断,不利于整个社会对AI风险的透明监督和共同治理。

由于详尽的高预算评估常常令人望而却步,评估者不应仅仅报告他们直接测量到的结果,更应说明风险随预算增加而变化的趋势,并明确指出何处是直接测量范围,何处是基于推断的预测。这种区分至关重要:一个基准测试可以测量在特定预算下的风险,也可以估算在攻击者可能预算下的风险,或者就两者之间的差距进行推测。新媒网跨境倡导,面对AI评估的成本挑战,我们需寻求更公平、透明、协作的解决方案。

最小化的TTC-感知评估方案

为了更全面、更有效地评估AI系统的安全性,一套最小化的测试时间计算(TTC)感知安全评估协议应包含以下六个关键步骤。这不仅能提升评估的科学性,也能为AI系统的负责任部署提供更坚实的基础。

  1. 选择相关的预算维度。 针对不同的系统,这些预算维度可能包括:样本数量、攻击尝试次数、推理令牌数量、工具调用次数、检索文档数量、智能体运行次数、实际耗费时间、人工投入时间以及经济成本等。明确这些维度,有助于量化评估投入。

  2. 评估多个努力层级。 例如,一份报告可以测量在1次、10次、100次、1,000次和10,000次尝试下的攻击成功率,或者在越来越复杂的智能体支架下的表现。通过不同层级的评估,我们可以描绘出风险随投入变化的曲线。

  3. 测试多种攻击者类型。 静态提示、自适应的AI攻击者、使用工具的智能体,以及有人参与的红队(red team),它们施加的优化压力截然不同。全面测试不同类型的攻击,才能更真实地反映系统的抗攻击能力。

  4. 测量每个层级上的有害成功或攻击成功率。 而不是仅仅报告一个单一的总体分数。详细的数据能更清晰地揭示系统在不同情境下的具体表现,避免“一叶障目”。

  5. 报告某种形式的不确定性。 智能体评估往往充满噪声,对支架敏感,且成本高昂导致样本量有限。因此,置信区间、方差估计和敏感性分析应成为标准报告内容,以提升评估结果的可信度。

  6. 区分观测结果与预测结果。 一份报告应明确区分直接测量到的风险和基于假设估计的风险。例如,报告可以声明:“我们直接测量了在B_eval预算下的情况。我们基于以下假设,估算了在B_adv预算下的行为……”这种透明度对于理解评估的局限性和适用范围至关重要。

TTC-感知安全报告应包含的要素

一份高质量的TTC-感知安全报告,其评估单位不应仅仅是“模型X”,而应该是一个综合体:模型本身、所使用的支架、部署环境、攻击者类型以及预算。清晰地报告这些元数据,定义了安全声明的真正含义和适用范围。

组件 报告内容 重要性
模型/版本 模型名称、API快照、解码设置 安全性可能随版本和采样策略而变化
部署环境 浏览器、命令行、API、代码执行、外部数据 工具改变了模型可能采取的行动空间
支架 智能体循环、规划器、重试机制、子智能体 支架对评估结果可能产生主导性影响
记忆/检索 可写记忆、RAG语料库、检索策略 有状态系统会产生延迟的攻击面
攻击者策略 静态提示、LLM攻击者、人工红队、混合方式 不同的攻击者施加不同的优化压力
预算维度 尝试次数、样本数量、令牌数、工具调用、运行次数、成本 “努力”必须是可衡量的
观测风险 每个测量层级上的有害成功率 单一分数隐藏了能力随规模化变化的行为
预测风险 在合理攻击者预算下的估计 发布决策需要对更高预算风险的估计
不确定性 方差、置信区间、敏感性分析 智能体结果具有噪声且对支架敏感
成本 经济成本、模型调用次数、判断调用次数、人工耗时 成本决定了结果的可复现性
范围 未经测试的内容 防止过度泛化的安全声明

静态安全检查已不再足够

我们必须承认,静态安全检查仍具有其价值。它们成本低廉、易于标准化,并且对于捕获明显的回归性错误非常有用,因此应继续作为安全防护体系的一部分。然而,对于那些具备更长推理能力、更强搜索能力、能够使用工具、维护记忆或被自适应攻击的系统而言,静态检查已不足以作为独立的安全证据。

在这些复杂的场景中,一个静态安全分数,不再仅仅是模型本身的固有属性,而是模型在特定推理预算、特定支架、特定攻击策略和特定部署配置下的表现。这意味着,我们需要更全面、动态的视角来审视AI系统的安全性。

对模型发布的启示

未来,AI模型的发布不应仅仅以其在低预算下的表现作为依据。更负责任的做法是,发布者应基于对在合理对抗努力下风险的全面评估,提出有明确范围限制的安全声明。对于低风险的部署场景,简单的静态检查或许足够。但对于那些具备高级能力,可能对社会产生深远影响的AI系统,其发布的门槛理应更高,评估也应更加严谨。

核心观点

新媒网跨境认为,安全评估应预判测试时间计算量,因为现实世界中的滥用并非静态不变。随着AI推理变得更具自适应性、智能体化和基于搜索的特性,一个系统潜在的危险能力,越来越取决于在部署时投入了多少精力。当前评估的症结,不在于它们总是错误的,而在于它们往往描述不清。

它们在某一预算下、某一支架下、面对某一攻击者时测量安全性,然后就默认读者可以将其结果泛化到未经测试的场景。一个更好的标准,应该将测试时间计算量视为威胁模型的一部分;它应该生成超越简单通过/失败分数的风险曲面。最重要的是,它应该为每一个安全声明附上一个“预算标签”。“在何种支架下安全?面对何种攻击者安全?在多大的测试时间计算量下安全?”——这正是AI安全评估越来越需要回答的核心问题。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/ai-safety-fail-17b-attackers-budget.html

评论(0)
暂无评论,快来抢沙发~
快讯:AI安全评估面临严峻挑战!随着人工智能技术发展,模型能力在“测试时间计算”(TTC)投入下动态变化。传统静态评估已不足以捕捉思维链、智能体支架等高级推理技术带来的潜在风险。文章强调,攻击者凭借经济动机,可投入高预算发起复杂攻击,远超评估者预算。为应对这种不对称性,未来AI安全评估需转向绘制“风险曲面”,量化不同计算预算下的风险,并为安全声明附上“预算标签”,以实现更全面、动态的AI模型安全评估,推动负责任的AI部署。
发布于 2026-05-12
查看人数 107
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。