Agent 压力与鲁棒性：对抗测试、混沌工程与红队防御

Executive Summary

Agent 系统的安全攻击面远大于传统软件。一个精心构造的 Prompt 可以让 Agent 泄露系统提示词、执行未授权操作，甚至自主发起网络攻击[5][7]。研究表明，GPT-4 驱动的 Agent 可以在无人反馈的情况下自主执行盲数据库模式提取和 SQL 注入[7]，而越狱攻击在多数主流模型上的成功率超过 60%[3]。Agent 不是"被动接受输入"的模型，而是"主动执行动作"的系统——这意味着攻击者获得的不是一段有害文本的生成权，而是一个数字员工的控制权。

本报告系统梳理了 Agent 特有的攻击面（Prompt Injection、工具投毒、越狱），评估了三大对抗测试工具（Garak、Promptfoo、JailbreakBench），探讨了混沌工程在 Agent 场景的应用，并提供了鲁棒性评估指标体系。核心洞察：Agent 安全不能靠"训练时对齐"一劳永逸，需要运行时防御（Circuit Breaker）与持续红队测试相结合[2]。

1. Agent 特有的攻击面

1.1 从 LLM 到 Agent：攻击面的质变

LLM 和 Agent 的安全风险有本质区别。LLM 攻击的目标是生成有害文本，而 Agent 攻击的目标是执行有害动作[5][7]。OWASP Top 10 for LLM Applications 将 Prompt Injection、Data Leakage、Insecure Plugin 等列为关键风险类别，这些风险在 Agent 场景下被进一步放大——工具调用赋予了攻击者直接执行操作的能力[10]。

1.2 四大攻击向量

graph TD A[Agent 攻击面] --> B[直接 Prompt Injection] A --> C[间接 Prompt Injection] A --> D[工具投毒] A --> E[越狱攻击] B --> B1[系统提示词覆盖] B --> B2[角色扮演攻击] B --> B3[多轮渐进式攻击] C --> C1[文档注入恶意指令] C --> C2[网页注入隐藏文本] C --> C3[工具返回值投毒] D --> D1[伪造工具描述] D --> D2[工具参数篡改] D --> D3[工具返回值劫持] E --> E1[编码绕过] E --> E2[多语言混淆] E --> E3[角色扮演越狱] style B fill:#FEE2E2,stroke:#DC2626 style C fill:#FFEDD5,stroke:#EA580C style D fill:#FEF3C7,stroke:#D97706 style E fill:#FCE7F3,stroke:#DB2777

1.3 工具投毒：Agent 特有的新型攻击

这种攻击难以检测，因为恶意指令嵌入在工具元数据中，而非用户输入中。MITRE ATLAS（Adversarial Threat Landscape for AI Systems）框架系统记录了类似攻击模式，将 LLM 攻击分类为 ML-ATK0040 到 ML-ATK0050 等战术技术，为红队测试提供了标准化的攻击知识库[11]。

2. 对抗测试工具

2.1 Garak：LLM 漏洞扫描器

Garak 是 NVIDIA 开源的 LLM 安全扫描工具，类似 nmap 对网络的作用[1][8]：

2.2 JailbreakBench：标准化越狱评估

2.3 Promptfoo：商业化红队测试

3. 混沌工程在 Agent 场景的应用

3.1 从传统混沌工程到 Agent 混沌工程

攻击类型	LLM 风险	Agent 风险（叠加）
Prompt Injection	生成不当内容	调用工具执行未授权操作
数据泄露	输出训练数据	通过工具读取/发送敏感文件
越狱	绕过内容策略	绕过操作权限限制
幻觉	产生错误信息	基于错误信息执行错误操作
间接注入	污染 RAG 数据	污染工具返回值导致后续攻击

探测类别	示例	攻击目标
Prompt Injection	`ignore previous instructions`	绕过系统指令
Encoding Attack	Base64/ROT13 编码恶意指令	绕过关键词检测
Known Attacks	DAN、AIM、STAN	已知越狱模式
Toxicity	生成仇恨言论	内容安全
Hallucination	编造不存在的事实	事实准确性

组件	内容
数据集	100 个行为，对齐 OpenAI 使用政策
评估框架	统一威胁模型、系统提示、评分函数
排行榜	攻击和防御在各 LLM 上的表现追踪
越狱 Judge	Llama-3-70B + 自定义 Prompt

功能	描述
Red Teaming	自动化对抗测试，发现漏洞
Guardrails	实时防护，阻止恶意输入/输出
Model Security	模型安全性评估和监控
MCP Proxy	MCP 协议安全代理

传统混沌工程（Chaos Engineering）的核心理念是主动注入故障以发现系统弱点[9]。在 Agent 场景下，故障注入需要扩展到认知层面：

3.2 Agent 混沌实验设计

flowchart TD START[混沌实验启动] --> BASELINE[建立基线] BASELINE --> INJECT[注入故障] INJECT --> T1[LLM 故障] INJECT --> T2[工具故障] INJECT --> T3[认知故障] INJECT --> T4[环境故障] T1 --> F1[API 超时 / 限速] T1 --> F2[幻觉响应] T1 --> F3[上下文溢出] T2 --> F4[工具不可用] T2 --> F5[工具返回错误格式] T2 --> F6[工具返回恶意内容] T3 --> F7[系统提示词泄露] T3 --> F8[角色漂移] T3 --> F9[目标遗忘] T4 --> F10[高并发负载] T4 --> F11[输入噪声注入] T4 --> F12[超长对话历史] F1 & F2 & F3 & F4 & F5 & F6 & F7 & F8 & F9 & F10 & F11 & F12 --> OBSERVE[观察 Agent 行为] OBSERVE --> ANALYZE{是否优雅降级?} ANALYZE -->|是| PASS[✅ 实验通过] ANALYZE -->|否| FAIL[❌ 发现弱点] FAIL --> MITIGATE[制定缓解措施] MITIGATE --> RETEST[重新测试] style PASS fill:#D1FAE5,stroke:#059669 style FAIL fill:#FEE2E2,stroke:#DC2626

3.3 负载测试的特殊考量

传统故障注入	Agent 故障注入
网络延迟	LLM 响应延迟
服务宕机	LLM API 返回 503
磁盘故障	上下文窗口溢出
内存泄漏	Token 预算耗尽
—	幻觉注入
—	工具返回值篡改
—	角色漂移

Agent 的负载测试不同于传统 API：不仅要看吞吐量，还要看质量是否在负载下退化[4]：

4. Circuit Breaker：运行时防御

4.1 拒绝训练 vs 对抗训练 vs 断路器

Zou et al. 提出的 Circuit Breaker 方法代表了 Agent 安全的范式转变[2]：

NIST AI Risk Management Framework（AI RMF）提供了一套风险管理方法论，强调"Map-Measure-Manage-Govern"四阶段循环，适用于构建 Agent 安全治理体系[12]。

4.2 Circuit Breaker 的工作机制

4.3 Circuit Breaker 的效果数据

5. 鲁棒性评估指标体系

5.1 四维评估框架

graph TD A[Agent 鲁棒性评估] --> B[安全维度] A --> C[可靠性维度] A --> D[性能维度] A --> E[恢复维度] B --> B1[攻击抵抗率] B --> B2[有害动作阻断率] B --> B3[信息泄露率] B --> B4[权限越界率] C --> C1[端到端成功率] C --> C2[幻觉率] C --> C3[工具调用准确率] C --> C4[任务完成质量] D --> D1[响应延迟 P50/P95/P99] D --> D2[Token 效率] D --> D3[并发处理能力] D --> D4[成本-准确率曲线] E --> E1[错误恢复时间] E --> E2[降级成功率] E --> E3[断路器触发频率] E --> E4[状态一致性] style B fill:#FEE2E2,stroke:#DC2626 style C fill:#D1FAE5,stroke:#059669 style D fill:#DBEAFE,stroke:#2563EB style E fill:#FEF3C7,stroke:#D97706

5.2 关键指标定义

5.3 压力测试矩阵

6. 实施建议

6.1 红队测试检查清单

6.2 混沌工程检查清单

6.3 运行时防御检查清单

6.4 工具与框架推荐

结论

指标	正常负载	高负载预期
成功率	> 95%	> 85%（可接受退化）
幻觉率	< 5%	< 10%（可接受退化）
工具调用正确率	> 90%	> 80%
延迟 P99	< 10s	< 30s
Token 效率	基线	不超过基线 150%

方法	原理	局限
拒绝训练	让模型学会拒绝有害请求	容易被越狱绕过
对抗训练	用已知攻击训练模型	需要已知攻击，无法应对零日攻击
Circuit Breaker	直接控制产生有害输出的表征	不需要预知攻击，但需要微调

场景	无 CB 成功率	有 CB 成功率	降幅
文本越狱	60%+	< 5%	> 90%
图像越狱	50%+	< 8%	> 85%
Agent 有害动作	40%+	< 10%	> 75%

指标	定义	目标值
攻击抵抗率	成功抵御的攻击 / 总攻击数	> 95%
有害动作阻断率	被阻止的有害工具调用 / 总有害调用	> 99%
端到端成功率	成功完成的任务 / 总任务数	> 90%
幻觉率	包含虚构信息的响应 / 总响应数	< 5%
错误恢复时间	从故障到恢复的平均时间	< 10s
Token 效率	有效 Token / 总 Token 消耗	> 60%

压力类型	测试方法	通过标准
高并发	100+ 并发 Agent 请求	P99 延迟 < 30s，成功率 > 85%
长对话	100+ 轮对话测试	上下文保持完整，无退化
恶意输入	Garak/Promptfoo 全量扫描	攻击抵抗率 > 95%
工具故障	逐个工具故障注入	所有工具有降级路径
LLM 故障	API 超时/限速/宕机	断路器正确触发，快速失败
资源耗尽	Token 预算耗尽测试	优雅停止，不产生截断响应

工具	用途	关键特性
Garak	LLM 漏洞扫描	静态/动态探针、NVIDIA 维护
JailbreakBench	越狱基准测试	标准化评估、排行榜
Promptfoo	企业红队测试	商业化、Guardrails
Circuit Breakers	运行时防御	表征级控制、零样本防御
Locust / k6	负载测试	可编程场景、实时监控
Tenacity	重试策略	指数退避、Jitter

Agent 系统的鲁棒性不是一个功能，而是贯穿全生命周期的系统工程：

Google 的 Secure AI Framework（SAIF）从组织层面提出了 AI 安全的六大原则——扩展、安全默认、共同责任、最小权限、可验证安全、自适应防御——为 Agent 安全架构提供了顶层指导[13]。

Agent 安全的核心矛盾是能力与安全的权衡——功能越强大，攻击面越广。没有银弹，只有持续的红队测试 + 运行时防御 + 混沌工程的组合拳。