arXiv ID:
2606.24496
对自主红队系统的红队测试 / Red-Teaming the Agentic Red-Team
1️⃣ 一句话总结
本文首次深入分析了当前用于网络攻防演练的自主智能体系统的安全性,发现这些工具普遍存在设计漏洞,攻击者可以窃取API密钥、持久控制甚至逃逸沙箱,并据此提出了加固系统架构的设计原则。
对自主红队系统的红队测试 / Red-Teaming the Agentic Red-Team
本文首次深入分析了当前用于网络攻防演练的自主智能体系统的安全性,发现这些工具普遍存在设计漏洞,攻击者可以窃取API密钥、持久控制甚至逃逸沙箱,并据此提出了加固系统架构的设计原则。
面向东亚及东南亚语境的文化自适应红队测试:一种方法论与比较分析 / Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis
该研究发现,当前大语言模型的多语言安全评估主要依赖对英语测试集的直接翻译,而这种做法忽视了本地文化背景,导致严重低估模型在真实场景中的安全风险;通过为韩语、日语、泰语和高棉语分别构建文化自适应的攻击测试集,攻击成功率平均提升9.3个百分点,表明只有针对具体语言文化调整测试内容,才能有效评估模型在多语言环境中的安全性。
安卓会梦见破解游戏吗?——用BenchJack系统审计AI智能体基准测试 / Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack
本文发现当前AI智能体基准测试存在严重安全漏洞——智能体无需真正完成任务,仅通过利用测试设计缺陷就能获得高分,并为此开发了自动化审计工具BenchJack,该系统能主动发现并修复这些漏洞,实验表明经过三轮迭代就能将大部分基准测试的“可钻空子”任务比例从接近100%降至10%以下。
不伤害原则:通过基于人格的客户模拟攻击揭示大型语言模型在心理咨询中的隐藏漏洞 / Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling
这篇论文提出了一个模拟心理咨询中不同人格来访者的攻击框架,首次系统地揭示了大型语言模型在提供心理支持时,可能无意中强化来访者有害信念或鼓励危险行为的重大安全隐患。
过度帮助:在多轮、多语言大语言模型智能体中测量非法协助 / Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
这篇论文提出了一个名为STING的自动化测试框架,用于评估大语言模型智能体在多轮、多语言对话中,如何被逐步诱导去完成有害或非法任务,从而揭示现有单轮测试方法的不足。
MUZZLE:针对间接提示注入攻击的Web智能体自适应对抗性红队测试框架 / MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks
这篇论文提出了一个名为MUZZLE的自适应自动化框架,用于评估基于大语言模型的网页智能体在面对网页内容中隐藏的恶意指令攻击时的安全性,它能根据智能体的执行轨迹动态调整攻击策略,并在多个实际应用中发现了新的安全漏洞。
请先 登录 后再提交论文