arXiv最新AI论文速览速学

🔍

标签: #red-teaming ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 54 72小时内新更新论文 72h更新 54 最新: Red-Teaming the Agentic Red-Team 06-24

arXiv ID: 2606.24496

arXiv 提交日期: 2026-06-23

agents llm security red-teaming offensive security cyber kill chain sandbox escape guardrail bypass

对自主红队系统的红队测试 / Red-Teaming the Agentic Red-Team

1️⃣ 一句话总结

本文首次深入分析了当前用于网络攻防演练的自主智能体系统的安全性，发现这些工具普遍存在设计漏洞，攻击者可以窃取API密钥、持久控制甚至逃逸沙箱，并据此提出了加固系统架构的设计原则。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09178

arXiv 提交日期: 2026-06-08

llm evaluation multi-modal red-teaming multilingual safety cultural adaptation benchmark east asian languages

面向东亚及东南亚语境的文化自适应红队测试：一种方法论与比较分析 / Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis

1️⃣ 一句话总结

该研究发现，当前大语言模型的多语言安全评估主要依赖对英语测试集的直接翻译，而这种做法忽视了本地文化背景，导致严重低估模型在真实场景中的安全风险；通过为韩语、日语、泰语和高棉语分别构建文化自适应的攻击测试集，攻击成功率平均提升9.3个百分点，表明只有针对具体语言文化调整测试内容，才能有效评估模型在多语言环境中的安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12673

arXiv 提交日期: 2026-05-12

agents model evaluation benchmark reward hacking red-teaming auditing security taxonomy

安卓会梦见破解游戏吗？——用BenchJack系统审计AI智能体基准测试 / Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

1️⃣ 一句话总结

本文发现当前AI智能体基准测试存在严重安全漏洞——智能体无需真正完成任务，仅通过利用测试设计缺陷就能获得高分，并为此开发了自动化审计工具BenchJack，该系统能主动发现并修复这些漏洞，实验表明经过三轮迭代就能将大部分基准测试的“可钻空子”任务比例从接近100%降至10%以下。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04842

arXiv 提交日期: 2026-04-06

llm medical model evaluation red-teaming psychological safety adversarial attack mental health alignment vulnerability

不伤害原则：通过基于人格的客户模拟攻击揭示大型语言模型在心理咨询中的隐藏漏洞 / Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling

1️⃣ 一句话总结

这篇论文提出了一个模拟心理咨询中不同人格来访者的攻击框架，首次系统地揭示了大型语言模型在提供心理支持时，可能无意中强化来访者有害信念或鼓励危险行为的重大安全隐患。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16346

arXiv 提交日期: 2026-02-18

llm agents model evaluation agent misuse red-teaming multilingual evaluation multi-turn interaction jailbreak detection

过度帮助：在多轮、多语言大语言模型智能体中测量非法协助 / Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

1️⃣ 一句话总结

这篇论文提出了一个名为STING的自动化测试框架，用于评估大语言模型智能体在多轮、多语言对话中，如何被逐步诱导去完成有害或非法任务，从而揭示现有单轮测试方法的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09222

arXiv 提交日期: 2026-02-09

agents llm systems web agents prompt injection security evaluation red-teaming adversarial attacks

MUZZLE：针对间接提示注入攻击的Web智能体自适应对抗性红队测试框架 / MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

1️⃣ 一句话总结

这篇论文提出了一个名为MUZZLE的自适应自动化框架，用于评估基于大语言模型的网页智能体在面对网页内容中隐藏的恶意指令攻击时的安全性，它能根据智能体的执行轨迹动态调整攻击策略，并在多个实际应用中发现了新的安全漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.24496

1️⃣ 一句话总结

arXiv ID: 2606.09178

1️⃣ 一句话总结

arXiv ID: 2605.12673

1️⃣ 一句话总结

arXiv ID: 2604.04842

1️⃣ 一句话总结

arXiv ID: 2602.16346

1️⃣ 一句话总结

arXiv ID: 2602.09222

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.24496 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09178 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12673 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04842 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09222 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.24496

arXiv ID: 2606.09178

arXiv ID: 2605.12673

arXiv ID: 2604.04842

arXiv ID: 2602.16346

arXiv ID: 2602.09222