引言
近年来,大型语言模型(LLM)在网络安全领域的研究和应用突飞猛进。安全领域四大顶会(IEEE Symposium on Security and Privacy、USENIX Security Symposium、ACM Conference on Computer and Communications Security和 Network and Distributed System Security Symposium)陆续出现了大量关于 LLM 的论文,这些工作涵盖了安全工具、攻防研究、误用检测、评测基准以及系统级隐私等多个方向。通过访问公开的论文页面和相关会议资源,我们对2023‑2026年间四大顶会上与LLM/Agent相关的研究进行梳理与分类。
主要研究类别
1-基于 LLM 的安全任务及智能体应用
这一类别关注利用 LLM 的理解、推理和生成能力来自动化传统安全任务或构建智能体工作流,是当前最活跃的研究方向。典型成果包括:
- 自动化渗透测试与漏洞挖掘: PentestGPT 和 PentestAgent 提出基于 LLM 的端到端渗透测试框架,通过自定义模块结合外部工具完成信息收集、漏洞分析与利用等任务,显著提升测试覆盖率(paper)。USENIX 2025 的 APPATCH 利用适应性提示调度实现自动补丁生成,自动修复 97 个零日漏洞(paper)。NDSS 2024 的 ChatAFL 将 LLM 用于从协议文档中提取语法和状态信息,提升模糊测试对协议状态的覆盖率(paper)。
- 代码分析与漏洞修复: NDSS 2025 的 From Large to Mammoth 比较多种 LLM 在 Java/C/C++ 漏洞检测中的性能,指出上下文窗口大小对检测能力的重要性(paper)。USENIX 2025 的 Depth Gives a False Sense of Privacy 将内部状态反演看作翻译任务,证明较长提示也可以被准确恢复(paper)。USENIX 2024 的用户研究发现,利用 LLM 代码助手的初学者产生关键安全缺陷的概率仅略高于未使用者(paper)。
- 符号执行与模糊测试增强: IEEE S&P 2026 的 Agentic Concolic Execution 和 deepSURF 等工作通过将 LLM 作为推理引擎协助符号执行或 fuzzer,发现 Rust 等语言中的内存漏洞。
- 安全运营与多智能体协作: S&P 2026 的 LLMs in the SOC 研究了人机协作在安全运营中心中的应用,分析了 LLM 作为辅助决策工具的优势。CCS 2025 的 AgentSentinel 构建实时安全防御框架,使用多智能体合作保护计算机端活动。
上述工作表明,研究者正将 LLM 与现有安全工具(扫描器、调试器、求解器等)结合,形成能够分解任务、动态规划和上下文维护的“链式工作流”。这种多智能体协作不仅提高了任务自动化程度,还为复杂场景引入了人机协同机制。
2-LLM 攻击与防御研究
随着 LLM 服务走向公众,针对模型本身的安全研究迅速增多,主要集中在越狱(jailbreak)、提示注入、隐私攻击和对抗样本等方面:
- 越狱攻击与防护: USENIX 2024 的 LLM‑Fuzzer 自动生成越狱提示并大规模评估安全模型,发现经过安全调优的 LLM 仍易受攻击(paper)。NDSS 2026 的 Odysseus 通过将恶意查询和响应藏在图像中实现跨模态越狱,成功率高达 99%(paper)。USENIX 2025 的 JBShield 在隐藏表示中建模 toxic 与 jailbreak 概念,用于检测和修改模型响应,从而将攻击成功率从 61% 降至 2%(paper)。
- 提示注入与 prompt 泄露: S&P 2025 的 Fun‑tuning 针对基于微调接口的优化型提示注入攻击,揭示专有模型的脆弱性。NDSS 2025 的 IsolateGPT 通过执行隔离架构保护用户应用程序免受外部 prompt 注入,实现 30% 以内的额外开销(paper)。USENIX 2025 的 Machine Against the RAG 则展示如何在检索增强生成系统中通过插入恶意“阻塞文档”导致拒答(paper)。
- 隐私攻击与防御: USENIX 2025 的 Mind the Inconspicuous 发现通过连续插入多个结束标记可以使输入更靠近模型的拒绝边界,提高越狱成功率(paper)。NDSS 2026 的 Shadow in the Cache 揭示 KV‑cache 中存在反演、碰撞和注入攻击风险,并提出 KV‑Cloak 进行防护(paper)。S&P 2026 的 MetaBreak 利用特殊令牌操纵在云端服务中绕过安全策略。
- 安全对齐和水印: NDSS 2026 的 Safety Misalignment Against LLMs 评估了系统提示修改、微调和模型编辑的安全失对齐攻击,并提出自监督表示攻击与防御策略(paper)。NDSS 2026 的 Character‑Level Perturbations Disrupt LLM Watermarks 证明简单字符扰动即可破坏水印,并利用遗传算法在黑盒设置下优化攻击(paper)。
这些工作揭示了现有安全措施的不足,并促进了越狱检测、隐私保护和安全调优等新型防御机制的发展。
3-LLM 在模糊测试、漏洞利用和协议分析中的应用
LLM 能生成结构化语法或推理内部状态,被广泛应用于自动发现漏洞与生成攻击载荷:
- 协议模糊测试:NDSS 2024 的 ChatAFL 使用 LLM 从文本规范中提取协议语法和状态信息,大幅提高 AFLNet 对多状态协议的覆盖率(paper)。
- 增强型模糊框架:USENIX 2024 的 LLM‑Fuzzer 为大规模越狱评估生成多样化的 jailbreak prompt(paper)。IEEE S&P 2025 提出的 Fuzz‑Testing Meets LLM-Based Agents结合图像生成模型进行越狱,也属于此类。
- 漏洞利用生成与评估:NDSS 2026 的 LLMPirate 利用 LLM 自动生成硬件电路的盗版设计,并能规避现有检测措施(paper);USENIX 2025 的 Flashboom Attacks 探讨利用 LLM 诱导代码审计工具忽视真正漏洞。
4-LLM 滥用与内容检测
随着 LLM 成为信息生成工具,利用其生成网络钓鱼、虚假论文等恶意内容的风险增加,相应的检测与治理研究也在兴起:
- 钓鱼与恶意内容生成:IEEE S&P 2024 的研究表明商用 LLM 可以生成拟真的钓鱼诈骗邮件。CCS 2024 的 On the Detectability of ChatGPT Content 讨论检测 AI 生成文本的挑战。
- 内容审核与链式思维:IEEE S&P 2024 的 Moderating New Waves of Online Hate 结合链式推理提升 LLM 对仇恨言论的审核效果。CCS 2024 的 Legilimens 从聊天式 LLM 中提取概念特征,建立高效的内容审核框架,在五个 LLM 和九种越狱方法上表现优异(paper)。
- 机器人协议与治理:CCS 2025 的研究分析了机器人网络爬虫和 LLM 服务在 robots.txt 管理上的混乱,指出大量配置错误和违反现象,呼吁建立可执行的治理机制(paper)。
5-LLM 应用与评测基准
为了评估 LLM 在安全领域的能力并指导模型改进,相关研究者提出了多个基准测试和经验研究:
- CS‑Eval:该基准涵盖 42 类任务,从知识、能力和应用层面全方位评估 LLM 在网络安全方面的表现arxiv.org。
- 人机协作与反思:NDSS 2026 的 Decompiling the Synergy 通过 153 名从业者调查和实验指出,LLM 可大幅提升初学者的逆向工程速度和质量,但对专家帮助有限且容易导致幻觉(paper)。USENIX 2023 的 Lost at C 发现 AI 代码助手不会显著提升安全错误率(paper)。
- 测评与对齐缺陷:NDSS 2026 的 SoK Chasing Shadows 总结了 LLM 安全研究中的九大缺陷,指出 72 篇论文均存在至少一个问题,并提出未来研究指南(paper)。
6-系统级隐私与安全漏洞
研究者还发现 LLM 服务和框架在系统层面存在新的攻击面和隐私泄露风险:
- 缓存与推理框架漏洞:NDSS 2026 的 Cache Me, Catch You 调查 KV 缓存、多模态缓存和语义缓存的安全漏洞,发现攻击者可操控输出或投毒,并已为 vLLM、SGLang、GPTCache 等框架修复漏洞(paper)。进一步,Shadow in the Cache 提出的 KV‑Cloak 在不显著影响准确率的情况下保护 KV 缓存(paper)。
- RAG 知识库攻击:USENIX 2025 的 PoisonedRAG 在检索增强生成系统的知识库中注入少量恶意文本便能诱导 LLM 产生特定答案,成功率高达 90%,现有防御难以应对(paper)。这一发现促使研究人员提出更完善的过滤与监控策略。
- 多模态安全:NDSS 2026 的 Q‑MLLM 使用向量量化阻断像素‑补丁和语义级对抗攻击,在防御成功率和计算开销之间取得良好平衡(paper)。
7-其他
- 恶意服务与地下经济:USENIX 2024 的 Malla 调查 212 个地下“恶意服务”(Mallas),发现它们滥用未过滤的大模型,并通过 jailbreak 技术提供生成虚假证件、恶意代码等服务(paper)。该研究呼吁对 LLM 服务实行更严格的监督与取证。
- 硬件设计盗版与攻击:NDSS 2026 的 LLMPirate 表明 LLM 可生成盗版硬件设计并规避检测(paper);S&P 2025 的 Prompt Inversion Attack 展示在协同推理环境中可恢复输入提示(paper)。
- 隐私保护与对齐研究:S&P 2025 的 Alleviating the Fear of Losing Alignment 探讨微调过程中保持安全对齐的方法;S&P 2025 的研究分析中国用户对医疗咨询 LLM 的隐私预期。
总结
整体来看,安全四大顶会中关于 LLM 的研究呈现出以下趋势:
- 应用从单点调用走向多智能体工作流:研究者不仅利用 LLM 回答安全问题,更通过定义角色明确的 Agent 协同完成漏洞挖掘、渗透测试、代码修复等复杂任务。RAG 等技术被广泛用于弥补模型知识时效性(paper)。
- 攻防并重,模型安全成为焦点:越狱、提示注入、隐私窃取等攻击层出不穷,催生了 JBShield、KV‑Cloak、SelfDefend 等防御方案;同时也暴露了安全对齐不牢和水印脆弱等问题(paper)。
- 误用检测与规范治理亟需发展:钓鱼邮件、仇恨言论、虚假内容检测及 robots.txt 管理凸显 LLM 被恶意滥用的风险,引发了对内容审核和治理政策的讨论(paper)。
- 系统层面的安全隐患受关注:从 KV‑cache 到 RAG 知识库,研究表明 LLM 服务链条中存在新的攻击面,需要从系统架构、模型推理和外部数据源等方面设计全面的安全措施(paper)。
- 评测基准与经验研究不断完善:CS‑Eval 等基准帮助系统评估模型安全能力,SoK 工作揭示了现有研究的不足,强调方法论严谨性和 reproducibility(paper)。
未来,随着大模型在更多安全场景落地,如何在保障隐私和对齐的前提下构建可解释、高效且可靠的智能安全系统,将是研究的核心挑战。