AI安全警钟：177亿黑产，评估预算低到致命！

近年来，人工智能技术突飞猛进，深刻改变着我们的生活与工作方式。从智能助手到自动驾驶，AI的触角正伸向社会各个角落。然而，伴随其强大能力而来的，是日益严峻的安全挑战。面对这些挑战，我们不禁要问：当下的AI安全评估，真的能跟上技术发展的步伐吗？
ChatGPT Image May 11, 2026, 05_47_25 PM

传统上，我们评估一个AI系统是否安全，往往聚焦于一个直接的问题：“这个模型会做出危险行为吗？”然而，对于今天高度复杂且不断演进的AI系统来说，这个问法似乎过于静态了。真正有意义的问题，应该更加动态化，它变成了：“如果这个模型被给予更多时间、更多样本、更多工具、更多尝试，或者更高的推理预算，它会做出危险行为吗？”

想象一下，一个AI模型在第一次面对有害请求时，能够果断拒绝。在一次简单的、成本低廉的评估中，这无疑是成功的表现。但现实世界中的恶意攻击者，并不会止步于一次尝试。他们可以生成成千上万种不同的提示变体，利用另一个AI模型来优化失败的攻击，甚至添加长上下文的演示，将模型封装在智能体循环中，赋予它各种工具，并且只在预期收益高的情况下投入更多精力。

因此，对AI安全性的考量，不再仅仅是“模型是否拒绝了第一个提示？”而更深入地变为：“随着攻击者投入更多推理时间的努力，有害行为成功的概率会如何变化？”这种视角的转变至关重要，因为它揭示了一个核心事实：AI模型的实际能力在部署后并非一成不变，它会随着推理过程中投入的计算和优化压力，发生显著变化。

当前，我们看到越来越多的推理技术，如思维链提示（Chain-of-thought prompting）、自洽性（self-consistency）、树形搜索（tree search）、最佳-N采样（best-of-N sampling）、智能体支架（agentic scaffolds）、长上下文提示（long-context prompting）以及工具使用循环（tool-use loops），都将推理过程转变为一个自适应的动态过程。这意味着，一个在低成本、单次评估下看起来很安全的模型，在高强度对抗性评估中，可能就无法维持其安全性了。

这并非否定静态安全检查的价值，它们依然是捕捉明显缺陷的有效手段。但它提醒我们，那些成本低廉的安全评估，仅仅是宏大风险图景中的一个测量点。我们必须认识到，AI的真正风险，往往隐藏在更深层次、需要更多投入才能被发现的地方。

对于特定的AI模型、部署配置以及攻击策略，我们关注的不再只是简单的通过或失败的二元结果，而是一个完整的风险曲面：即在给定计算预算下，有害行为成功的概率。这里所说的“预算”，含义非常广泛，它可以指样本数量、攻击尝试次数、人工审查步骤、检索文档数量，或者更直观地，是所投入的经济成本。

传统的安全基准测试，通常只在评估者设定的有限预算下进行评估。然而，与安全紧密相关的问题，往往需要考虑攻击者可能投入的预算。如果攻击者愿意投入的预算远超评估者，那么即使低预算下的安全评估显示系统能够抵御弱小攻击，也无法证明它能抵御那些出于经济动机而发起的、精心策划的攻击。新媒网跨境了解到，这种“评估者预算低，攻击者预算高”的不对称性，是当前AI安全评估面临的巨大挑战。
ChatGPT Image May 11, 2026, 06_22_52 PM (2)

图1：随着测试时间计算量增加的风险曲线示例。实线部分代表了在评估预算B_{\text{eval}}内直接测得的低预算区域，而虚线部分则描绘了向攻击者预算B_{\text{adv}}可能更高预算的预测。S形曲线仅为示意，实际上风险曲线会根据模型、支架、攻击者和部署环境的不同而变化巨大。

测试时间计算改变模型能力边界

在讨论AI模型的安全能力时，测试时间计算量往往被简单地理解为“更多的推理令牌”。但这只是冰山一角。在实际应用中，许多推理时的资源投入都能显著改变模型的行为模式和能力边界。新媒网认为，理解这些机制对于构建更安全的AI至关重要。

机制	规模化内容	安全相关性	示例证据
自洽性	采样的推理路径	模型可能一次失败，但在重复推理尝试后成功	自洽性在GSM8K上报告+17.9%的增益，在SVAMP上+11.0%，在AQuA上+12.2%。
树形搜索	探索的中间状态	单次生成可能遗漏在搜索下出现的能力	思想树（Tree of Thoughts）报告GPT-4在链式思考下解决4%的24点游戏，而在树形搜索下达到74%。
自适应计算分配	每个问题的预算	攻击者可以精确地将更多精力投入到防御薄弱之处	某研究报告称，相比最佳-N方法效率提升4倍以上，在FLOP匹配下，测试时间计算甚至能击败一个大14倍的模型。
最佳-N采样	提示变体或完成	单次尝试的低风险可能累积成高风险	最佳-N越狱方法在GPT-4o上报告89%的攻击成功率，在Claude 3.5 Sonnet上使用10,000个增强提示报告78%。
长上下文演示	上下文示例数量	长上下文成为攻击面	多次越狱发现攻击效果遵循幂律，可达数百次。
智能体支架	工具调用、重试、子智能体、记忆	滥用可能只出现在真实的系统环境中	已有研究表明，LLM网络入侵智能体无需人工反馈即可执行盲数据库模式提取和SQL注入等任务。

我们可以看到，推理过程正变得越来越像一场“搜索”，而搜索能力的提升，直接拓展了AI的能力边界，包括其潜在的危险能力。

例如，自洽性机制，允许模型通过生成并比较多个推理路径来验证答案。这就像一个人在解难题时，多想几种办法，反复检查，最终找到正确答案。如果模型在第一次尝试时因为某些偏差拒绝了有害请求，但在多次尝试后，通过聚合不同推理路径的结果，反而可能“找到”绕过安全防护的方法。

树形搜索则更进一步，它不再是简单的线性尝试，而是像下棋一样，探索各种可能的中间状态和决策分支。某研究显示，GPT-4在面对复杂逻辑问题时，通过传统的链式思考模式只能解决少量问题，但一旦应用树形搜索，解决能力便大幅提升。这种能力的飞跃，同样可能被用于寻找系统的漏洞。

自适应计算分配则代表了一种“智慧”的攻击方式。攻击者不再盲目投入资源，而是像精准打击一样，将更多计算资源集中在那些可能存在弱点或预期收益最高的地方。这意味着，系统的防御必须是全面的，不能有明显的短板。

最佳-N采样和长上下文演示也值得我们高度关注。前者通过大量生成提示变体，提升了攻击成功的概率；后者则表明，随着上下文信息的增加，模型可能暴露出新的攻击面。这两种机制都说明，如果评估仅仅基于少量、简短的交互，那么系统潜在的风险就很难被发现。

最后，智能体支架的出现，更是将AI的攻击面推向了一个新的高度。当AI模型不再仅仅是语言处理单元，而是被赋予了工具使用、记忆维护、子任务分配等能力，成为一个能够与外部环境互动的智能体时，其行为的复杂性和不可预测性将急剧增加。攻击不再局限于直接的提示，而是可能通过一系列看似无害的交互，最终导致系统被滥用。

攻击面远不止直接有害提示

AI系统的攻击面，早已超越了用户直接输入的有害提示。当AI系统被赋予检索文档、浏览网页、阅读邮件、调用API接口、维护记忆以及与外部环境互动等能力时，攻击面就从“用户输入了什么？”转变为“系统消费、存储、信任和处理了哪些信息？”

“间接提示注入”就是一个很好的例子。外媒曾有研究指出，当AI模型与应用程序深度集成时，数据与指令之间的界限变得模糊，攻击者可以将恶意指令植入到可能被系统检索到的内容中，而非直接在用户提示中。这些恶意指令可能导致数据窃取、应用程序被操纵，甚至控制API调用，从而对系统造成严重破坏。

记忆增强型智能体更是加剧了这一问题。“智能体投毒”（AgentPoison）攻击就是通过污染智能体的长期记忆或知识库，来攻击通用型和基于检索增强生成（RAG）的AI智能体。研究人员报告，这种攻击的平均成功率超过80%，而对正常性能的影响不足1%，投毒率也低于0.1%。

这明确说明，一次简单的一次性拒绝测试，根本无法捕捉到这些隐蔽而复杂的风险。一个模型即使能够拒绝直接的有害请求，也可能在攻击通过检索到的网页内容、被污染的记忆、恶意文档、受损的工具输出，或者一系列看似无害的交互后，最终陷入失控。新媒网跨境获悉，这种多维度、渗透式的攻击方式，对AI安全评估提出了更高的要求。

经济不对称性：攻击者与评估者的博弈

在AI安全评估中，存在着一个显著的经济不对称性。评估者的预算往往受限于研究资金，而攻击者的预算则由其预期的攻击收益决定。我们可以用一个简单的公式来表示攻击者的决策：攻击者会选择一个预算b，使其成功攻击的价值V乘以攻击成功概率R(b)，再减去计算、工具使用和人工成本C(b)后的净收益最大化。通俗地说，一个理性的攻击者会持续投入，只要其边际预期收益超过边际成本。

这并非意味着每个攻击者都拥有顶尖实验室的资源，而是说在某些高收益的滥用领域，即便花费数千乃至数万美元在推理计算上，只要预期的回报足够大，这种投入也是完全合理的。网络犯罪的巨大经济规模，使得我们无法忽视这一点。

以美国为例，根据美国联邦调查局（FBI）2025年的互联网犯罪报告（IC3），仅在2025年，网络诈骗相关的投诉就高达452,868起，报告损失金额约177亿美元。这占当年IC3接到投诉的45%，报告损失的85%。此外，外媒区块链分析机构Chainalysis报告显示，2024年从加密货币平台被盗的资金增至22亿美元，涉及303起黑客事件。

这些惊人的数字，足以说明潜在的攻击者拥有巨大的经济驱动力，去投入资源寻找AI系统的漏洞。评估者通常会问：“我们能负担得起测试什么？”而攻击者则会问：“为了成功，我们值得投入什么？”如果安全评估仅仅回答了第一个问题，那么它很可能系统性地低估了第二个问题所带来的真实风险。新媒网跨境认为，这种经济层面的不对称，是我们在设计AI安全防御体系时必须正视的核心挑战。

成本高昂的评估与责任归属

意识到测试时间计算量（TTC）的重要性，并进行相应的安全评估，无疑是一项耗资巨大的工作。近期的一项“评估的评估”分析指出，AI评估成本已经跨过了一个门槛，这正在改变谁能够参与其中。报告显示，一个名为“整体智能体排行榜”（Holistic Agent Leaderboard, HAL）的评估项目，在9个模型和9个基准测试上进行了21,730次智能体运行，总花费约4万美元。更令人震惊的是，对一个前沿AI模型进行一次GAIA基准测试，在不使用缓存的情况下，单次运行成本就可能高达2,829美元。

高成本问题之所以关键，是因为那些需要投入大量精力才能触及的场景，往往正是对安全影响最大的高风险区域。如果独立的评估机构无法承担这些测试的成本，那么关于前沿系统风险的最有力证据，将持续集中在那些开发和部署这些系统的大型组织内部。这无疑造成了信息和能力的垄断，不利于整个社会对AI风险的透明监督和共同治理。

由于详尽的高预算评估常常令人望而却步，评估者不应仅仅报告他们直接测量到的结果，更应说明风险随预算增加而变化的趋势，并明确指出何处是直接测量范围，何处是基于推断的预测。这种区分至关重要：一个基准测试可以测量在特定预算下的风险，也可以估算在攻击者可能预算下的风险，或者就两者之间的差距进行推测。新媒网跨境倡导，面对AI评估的成本挑战，我们需寻求更公平、透明、协作的解决方案。

最小化的TTC-感知评估方案

为了更全面、更有效地评估AI系统的安全性，一套最小化的测试时间计算（TTC）感知安全评估协议应包含以下六个关键步骤。这不仅能提升评估的科学性，也能为AI系统的负责任部署提供更坚实的基础。

选择相关的预算维度。 针对不同的系统，这些预算维度可能包括：样本数量、攻击尝试次数、推理令牌数量、工具调用次数、检索文档数量、智能体运行次数、实际耗费时间、人工投入时间以及经济成本等。明确这些维度，有助于量化评估投入。
评估多个努力层级。 例如，一份报告可以测量在1次、10次、100次、1,000次和10,000次尝试下的攻击成功率，或者在越来越复杂的智能体支架下的表现。通过不同层级的评估，我们可以描绘出风险随投入变化的曲线。
测试多种攻击者类型。 静态提示、自适应的AI攻击者、使用工具的智能体，以及有人参与的红队（red team），它们施加的优化压力截然不同。全面测试不同类型的攻击，才能更真实地反映系统的抗攻击能力。
测量每个层级上的有害成功或攻击成功率。 而不是仅仅报告一个单一的总体分数。详细的数据能更清晰地揭示系统在不同情境下的具体表现，避免“一叶障目”。
报告某种形式的不确定性。 智能体评估往往充满噪声，对支架敏感，且成本高昂导致样本量有限。因此，置信区间、方差估计和敏感性分析应成为标准报告内容，以提升评估结果的可信度。
区分观测结果与预测结果。 一份报告应明确区分直接测量到的风险和基于假设估计的风险。例如，报告可以声明：“我们直接测量了在B_eval预算下的情况。我们基于以下假设，估算了在B_adv预算下的行为……”这种透明度对于理解评估的局限性和适用范围至关重要。

TTC-感知安全报告应包含的要素

一份高质量的TTC-感知安全报告，其评估单位不应仅仅是“模型X”，而应该是一个综合体：模型本身、所使用的支架、部署环境、攻击者类型以及预算。清晰地报告这些元数据，定义了安全声明的真正含义和适用范围。

组件	报告内容	重要性
模型/版本	模型名称、API快照、解码设置	安全性可能随版本和采样策略而变化
部署环境	浏览器、命令行、API、代码执行、外部数据	工具改变了模型可能采取的行动空间
支架	智能体循环、规划器、重试机制、子智能体	支架对评估结果可能产生主导性影响
记忆/检索	可写记忆、RAG语料库、检索策略	有状态系统会产生延迟的攻击面
攻击者策略	静态提示、LLM攻击者、人工红队、混合方式	不同的攻击者施加不同的优化压力
预算维度	尝试次数、样本数量、令牌数、工具调用、运行次数、成本	“努力”必须是可衡量的
观测风险	每个测量层级上的有害成功率	单一分数隐藏了能力随规模化变化的行为
预测风险	在合理攻击者预算下的估计	发布决策需要对更高预算风险的估计
不确定性	方差、置信区间、敏感性分析	智能体结果具有噪声且对支架敏感
成本	经济成本、模型调用次数、判断调用次数、人工耗时	成本决定了结果的可复现性
范围	未经测试的内容	防止过度泛化的安全声明

静态安全检查已不再足够

我们必须承认，静态安全检查仍具有其价值。它们成本低廉、易于标准化，并且对于捕获明显的回归性错误非常有用，因此应继续作为安全防护体系的一部分。然而，对于那些具备更长推理能力、更强搜索能力、能够使用工具、维护记忆或被自适应攻击的系统而言，静态检查已不足以作为独立的安全证据。

在这些复杂的场景中，一个静态安全分数，不再仅仅是模型本身的固有属性，而是模型在特定推理预算、特定支架、特定攻击策略和特定部署配置下的表现。这意味着，我们需要更全面、动态的视角来审视AI系统的安全性。

对模型发布的启示

未来，AI模型的发布不应仅仅以其在低预算下的表现作为依据。更负责任的做法是，发布者应基于对在合理对抗努力下风险的全面评估，提出有明确范围限制的安全声明。对于低风险的部署场景，简单的静态检查或许足够。但对于那些具备高级能力，可能对社会产生深远影响的AI系统，其发布的门槛理应更高，评估也应更加严谨。

核心观点

新媒网跨境认为，安全评估应预判测试时间计算量，因为现实世界中的滥用并非静态不变。随着AI推理变得更具自适应性、智能体化和基于搜索的特性，一个系统潜在的危险能力，越来越取决于在部署时投入了多少精力。当前评估的症结，不在于它们总是错误的，而在于它们往往描述不清。

它们在某一预算下、某一支架下、面对某一攻击者时测量安全性，然后就默认读者可以将其结果泛化到未经测试的场景。一个更好的标准，应该将测试时间计算量视为威胁模型的一部分；它应该生成超越简单通过/失败分数的风险曲面。最重要的是，它应该为每一个安全声明附上一个“预算标签”。“在何种支架下安全？面对何种攻击者安全？在多大的测试时间计算量下安全？”——这正是AI安全评估越来越需要回答的核心问题。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/ai-safety-fail-17b-attackers-budget.html