网安四大顶会中的LLM/Agent相关文章调研

引言

近年来，大型语言模型（LLM）在网络安全领域的研究和应用突飞猛进。安全领域四大顶会（IEEE Symposium on Security and Privacy、USENIX Security Symposium、ACM Conference on Computer and Communications Security和 Network and Distributed System Security Symposium）陆续出现了大量关于 LLM 的论文，这些工作涵盖了安全工具、攻防研究、误用检测、评测基准以及系统级隐私等多个方向。通过访问公开的论文页面和相关会议资源，我们对2023‑2026年间四大顶会上与LLM/Agent相关的研究进行梳理与分类。

主要研究类别

1-基于 LLM 的安全任务及智能体应用

这一类别关注利用 LLM 的理解、推理和生成能力来自动化传统安全任务或构建智能体工作流，是当前最活跃的研究方向。典型成果包括：

自动化渗透测试与漏洞挖掘: PentestGPT 和 PentestAgent 提出基于 LLM 的端到端渗透测试框架，通过自定义模块结合外部工具完成信息收集、漏洞分析与利用等任务，显著提升测试覆盖率(paper)。USENIX 2025 的 APPATCH 利用适应性提示调度实现自动补丁生成，自动修复 97 个零日漏洞(paper)。NDSS 2024 的 ChatAFL 将 LLM 用于从协议文档中提取语法和状态信息，提升模糊测试对协议状态的覆盖率(paper)。
代码分析与漏洞修复: NDSS 2025 的 From Large to Mammoth 比较多种 LLM 在 Java/C/C++ 漏洞检测中的性能，指出上下文窗口大小对检测能力的重要性(paper)。USENIX 2025 的 Depth Gives a False Sense of Privacy 将内部状态反演看作翻译任务，证明较长提示也可以被准确恢复(paper)。USENIX 2024 的用户研究发现，利用 LLM 代码助手的初学者产生关键安全缺陷的概率仅略高于未使用者(paper)。
符号执行与模糊测试增强: IEEE S&P 2026 的 Agentic Concolic Execution 和 deepSURF 等工作通过将 LLM 作为推理引擎协助符号执行或 fuzzer，发现 Rust 等语言中的内存漏洞。
安全运营与多智能体协作: S&P 2026 的 LLMs in the SOC 研究了人机协作在安全运营中心中的应用，分析了 LLM 作为辅助决策工具的优势。CCS 2025 的 AgentSentinel 构建实时安全防御框架，使用多智能体合作保护计算机端活动。

上述工作表明，研究者正将 LLM 与现有安全工具（扫描器、调试器、求解器等）结合，形成能够分解任务、动态规划和上下文维护的“链式工作流”。这种多智能体协作不仅提高了任务自动化程度，还为复杂场景引入了人机协同机制。

2-LLM 攻击与防御研究

随着 LLM 服务走向公众，针对模型本身的安全研究迅速增多，主要集中在越狱（jailbreak）、提示注入、隐私攻击和对抗样本等方面：

越狱攻击与防护: USENIX 2024 的 LLM‑Fuzzer 自动生成越狱提示并大规模评估安全模型，发现经过安全调优的 LLM 仍易受攻击(paper)。NDSS 2026 的 Odysseus 通过将恶意查询和响应藏在图像中实现跨模态越狱，成功率高达 99%(paper)。USENIX 2025 的 JBShield 在隐藏表示中建模 toxic 与 jailbreak 概念，用于检测和修改模型响应，从而将攻击成功率从 61% 降至 2%(paper)。
提示注入与 prompt 泄露: S&P 2025 的 Fun‑tuning 针对基于微调接口的优化型提示注入攻击，揭示专有模型的脆弱性。NDSS 2025 的 IsolateGPT 通过执行隔离架构保护用户应用程序免受外部 prompt 注入，实现 30% 以内的额外开销(paper)。USENIX 2025 的 Machine Against the RAG 则展示如何在检索增强生成系统中通过插入恶意“阻塞文档”导致拒答(paper)。
隐私攻击与防御: USENIX 2025 的 Mind the Inconspicuous 发现通过连续插入多个结束标记可以使输入更靠近模型的拒绝边界，提高越狱成功率(paper)。NDSS 2026 的 Shadow in the Cache 揭示 KV‑cache 中存在反演、碰撞和注入攻击风险，并提出 KV‑Cloak 进行防护(paper)。S&P 2026 的 MetaBreak 利用特殊令牌操纵在云端服务中绕过安全策略。
安全对齐和水印: NDSS 2026 的 Safety Misalignment Against LLMs 评估了系统提示修改、微调和模型编辑的安全失对齐攻击，并提出自监督表示攻击与防御策略(paper)。NDSS 2026 的 Character‑Level Perturbations Disrupt LLM Watermarks 证明简单字符扰动即可破坏水印，并利用遗传算法在黑盒设置下优化攻击(paper)。

这些工作揭示了现有安全措施的不足，并促进了越狱检测、隐私保护和安全调优等新型防御机制的发展。

3-LLM 在模糊测试、漏洞利用和协议分析中的应用

LLM 能生成结构化语法或推理内部状态，被广泛应用于自动发现漏洞与生成攻击载荷：

协议模糊测试：NDSS 2024 的 ChatAFL 使用 LLM 从文本规范中提取协议语法和状态信息，大幅提高 AFLNet 对多状态协议的覆盖率(paper)。
增强型模糊框架：USENIX 2024 的 LLM‑Fuzzer 为大规模越狱评估生成多样化的 jailbreak prompt(paper)。IEEE S&P 2025 提出的 Fuzz‑Testing Meets LLM-Based Agents结合图像生成模型进行越狱，也属于此类。
漏洞利用生成与评估：NDSS 2026 的 LLMPirate 利用 LLM 自动生成硬件电路的盗版设计，并能规避现有检测措施(paper)；USENIX 2025 的 Flashboom Attacks 探讨利用 LLM 诱导代码审计工具忽视真正漏洞。

4-LLM 滥用与内容检测

随着 LLM 成为信息生成工具，利用其生成网络钓鱼、虚假论文等恶意内容的风险增加，相应的检测与治理研究也在兴起：

钓鱼与恶意内容生成：IEEE S&P 2024 的研究表明商用 LLM 可以生成拟真的钓鱼诈骗邮件。CCS 2024 的 On the Detectability of ChatGPT Content 讨论检测 AI 生成文本的挑战。
内容审核与链式思维：IEEE S&P 2024 的 Moderating New Waves of Online Hate 结合链式推理提升 LLM 对仇恨言论的审核效果。CCS 2024 的 Legilimens 从聊天式 LLM 中提取概念特征，建立高效的内容审核框架，在五个 LLM 和九种越狱方法上表现优异(paper)。
机器人协议与治理：CCS 2025 的研究分析了机器人网络爬虫和 LLM 服务在 robots.txt 管理上的混乱，指出大量配置错误和违反现象，呼吁建立可执行的治理机制(paper)。

5-LLM 应用与评测基准

为了评估 LLM 在安全领域的能力并指导模型改进，相关研究者提出了多个基准测试和经验研究：

CS‑Eval：该基准涵盖 42 类任务，从知识、能力和应用层面全方位评估 LLM 在网络安全方面的表现arxiv.org。
人机协作与反思：NDSS 2026 的 Decompiling the Synergy 通过 153 名从业者调查和实验指出，LLM 可大幅提升初学者的逆向工程速度和质量，但对专家帮助有限且容易导致幻觉(paper)。USENIX 2023 的 Lost at C 发现 AI 代码助手不会显著提升安全错误率(paper)。
测评与对齐缺陷：NDSS 2026 的 SoK Chasing Shadows 总结了 LLM 安全研究中的九大缺陷，指出 72 篇论文均存在至少一个问题，并提出未来研究指南(paper)。

6-系统级隐私与安全漏洞

研究者还发现 LLM 服务和框架在系统层面存在新的攻击面和隐私泄露风险：

缓存与推理框架漏洞：NDSS 2026 的 Cache Me, Catch You 调查 KV 缓存、多模态缓存和语义缓存的安全漏洞，发现攻击者可操控输出或投毒，并已为 vLLM、SGLang、GPTCache 等框架修复漏洞(paper)。进一步，Shadow in the Cache 提出的 KV‑Cloak 在不显著影响准确率的情况下保护 KV 缓存(paper)。
RAG 知识库攻击：USENIX 2025 的 PoisonedRAG 在检索增强生成系统的知识库中注入少量恶意文本便能诱导 LLM 产生特定答案，成功率高达 90%，现有防御难以应对(paper)。这一发现促使研究人员提出更完善的过滤与监控策略。
多模态安全：NDSS 2026 的 Q‑MLLM 使用向量量化阻断像素‑补丁和语义级对抗攻击，在防御成功率和计算开销之间取得良好平衡(paper)。

7-其他

恶意服务与地下经济：USENIX 2024 的 Malla 调查 212 个地下“恶意服务”（Mallas），发现它们滥用未过滤的大模型，并通过 jailbreak 技术提供生成虚假证件、恶意代码等服务(paper)。该研究呼吁对 LLM 服务实行更严格的监督与取证。
硬件设计盗版与攻击：NDSS 2026 的 LLMPirate 表明 LLM 可生成盗版硬件设计并规避检测(paper)；S&P 2025 的 Prompt Inversion Attack 展示在协同推理环境中可恢复输入提示(paper)。
隐私保护与对齐研究：S&P 2025 的 Alleviating the Fear of Losing Alignment 探讨微调过程中保持安全对齐的方法；S&P 2025 的研究分析中国用户对医疗咨询 LLM 的隐私预期。

总结

整体来看，安全四大顶会中关于 LLM 的研究呈现出以下趋势：

应用从单点调用走向多智能体工作流：研究者不仅利用 LLM 回答安全问题，更通过定义角色明确的 Agent 协同完成漏洞挖掘、渗透测试、代码修复等复杂任务。RAG 等技术被广泛用于弥补模型知识时效性(paper)。
攻防并重，模型安全成为焦点：越狱、提示注入、隐私窃取等攻击层出不穷，催生了 JBShield、KV‑Cloak、SelfDefend 等防御方案；同时也暴露了安全对齐不牢和水印脆弱等问题(paper)。
误用检测与规范治理亟需发展：钓鱼邮件、仇恨言论、虚假内容检测及 robots.txt 管理凸显 LLM 被恶意滥用的风险，引发了对内容审核和治理政策的讨论(paper)。
系统层面的安全隐患受关注：从 KV‑cache 到 RAG 知识库，研究表明 LLM 服务链条中存在新的攻击面，需要从系统架构、模型推理和外部数据源等方面设计全面的安全措施(paper)。
评测基准与经验研究不断完善：CS‑Eval 等基准帮助系统评估模型安全能力，SoK 工作揭示了现有研究的不足，强调方法论严谨性和 reproducibility(paper)。

未来，随着大模型在更多安全场景落地，如何在保障隐私和对齐的前提下构建可解释、高效且可靠的智能安全系统，将是研究的核心挑战。