arXiv最新AI论文速览速学

🔍

标签: #prompt injection ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment 06-22

arXiv ID: 2606.19588

arXiv 提交日期: 2026-06-17

llm systems sat solver verification prompt injection robustness narration gap

大语言模型-求解器循环中的叙事鸿沟分析 / Analyzing the Narration Gap in LLM-Solver Loops

1️⃣ 一句话总结

这篇论文揭示了在AI系统中，当逻辑求解器给出正确结论后，语言模型在向用户解释结果时可能被恶意提示攻击，导致最终呈现给用户的答案被篡改，从而破坏了整个推理流程的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.15441

arXiv 提交日期: 2026-06-13

llm agents security prompt injection defense chain-of-thought reinforcement learning adversarial attack

基于推理的任务对齐：对抗自适应提示注入攻击的防御方法 / Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment

1️⃣ 一句话总结

本文提出一种名为RETA的训练方法，通过让AI助手在每次执行任务时先进行逻辑推理，判断外来指令是否与用户原始任务一致，从而有效抵御那些经过专门优化的复杂注入攻击，将攻击成功率控制在10%以下，同时保持较好的任务性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27823

arXiv 提交日期: 2026-05-27

llm machine learning adversarial prompts jailbreaking prompt injection semantic decomposition defense mechanism

解构对抗性提示：一种基于语义图的鲁棒大语言模型安全防御方法 / Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security

1️⃣ 一句话总结

本文提出了一种名为APD的防御框架，通过将用户输入中的恶意部分与正常部分分离开来，并利用语义图技术识别攻击模式，能在不降低大语言模型性能的前提下，将有害输出减少85%以上，从而有效抵御越狱攻击和提示注入等安全威胁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17986

arXiv 提交日期: 2026-05-18

agents llm security prompt injection benchmark safety tool use evaluation

LivePI：针对间接提示注入的智能体更逼真基准测试 / LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injectio

1️⃣ 一句话总结

该论文提出了一个名为LivePI的结构化基准测试框架，用于在真实虚拟机环境中评估AI智能体（如OpenClaw）应对间接提示注入攻击的风险，覆盖多种输入渠道和攻击目标，并验证了一种两层防御机制的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15030

arXiv 提交日期: 2026-05-14

agents llm systems web agents prompt injection adversarial robustness guard model dataset

WARD：针对提示注入攻击的网络智能体鲁棒防御方法 / WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections

1️⃣ 一句话总结

本文提出了一种名为WARD的防御模型，通过构建大规模数据集和自适应对抗训练框架，有效保护网络智能体免受网页中恶意提示注入攻击，同时保持高检测准确率和低误报率，且不增加运行延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10176

arXiv 提交日期: 2026-05-11

llm natural language processing security sql injection prompt injection security framework adversarial attacks database security

当提示成为攻击载荷：大语言模型驱动应用中SQL注入攻击的缓解框架 / When Prompts Become Payloads: A Framework for Mitigating SQL Injection Attacks in Large Language Model-Driven Applications

1️⃣ 一句话总结

本文提出了一种多层安全框架，通过前端提示净化、行为异常检测和已知攻击签名匹配，来防止用户利用自然语言提示诱导大语言模型生成恶意SQL查询，从而有效防御新型SQL注入攻击。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24542

arXiv 提交日期: 2026-04-27

llm machine learning model evaluation runtime monitoring safety alignment backdoor detection jailbreak detection prompt injection

层逐收敛指纹：用于大语言模型运行时异常行为检测 / Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models

1️⃣ 一句话总结

本文提出一种无需微调或修改模型的运行时监测方法，通过分析大模型各层隐藏状态的轨迹模式（类似指纹），能同时检测后门攻击、越狱提示和提示注入等多种异常行为，在多种主流大模型上均能显著降低攻击成功率，且计算开销极低。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24020

arXiv 提交日期: 2026-04-27

agents security llm autonomous agents security awareness training prompt injection self-play training memory accumulation

ClawdGo：面向自主人工智能智能体的内生安全意识训练 / Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents

1️⃣ 一句话总结

本文提出ClawdGo框架，通过让AI智能体在推理时自主扮演攻击者、防御者和评估者进行自对弈训练，在不修改模型的情况下，大幅提升其识别和应对提示注入、记忆投毒等内部安全威胁的能力，并发现了过度训练可能导致误报正常请求的新问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14604

arXiv 提交日期: 2026-04-16

audio multi-modal model evaluation adversarial attack prompt injection audio security large audio-language models imperceptible perturbation

通过上下文无关且难以察觉的听觉提示注入劫持大型音频-语言模型 / Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

1️⃣ 一句话总结

这项研究揭示了一种针对大型音频-语言模型的新型安全威胁，通过生成一种人耳难以察觉、能融入环境背景音的恶意音频片段，可以劫持智能语音助手，使其在用户不知情的情况下执行未经授权的指令。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28166

arXiv 提交日期: 2026-03-30

llm agents model evaluation security evaluation privilege control tool usage prompt injection real-world tools

评估智能体在现实世界工具上的权限使用 / Evaluating Privilege Usage of Agents on Real-World Tools

1️⃣ 一句话总结

这篇论文提出了一个名为GrantBox的安全评估沙箱，用于测试配备了真实工具的AI智能体在面临复杂攻击时的权限使用安全性，发现即使AI具备基本安全意识，但在精心设计的攻击下其防御依然脆弱，平均攻击成功率高达84.8%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19588

1️⃣ 一句话总结

arXiv ID: 2606.15441

1️⃣ 一句话总结

arXiv ID: 2605.27823

1️⃣ 一句话总结

arXiv ID: 2605.17986

1️⃣ 一句话总结

arXiv ID: 2605.15030

1️⃣ 一句话总结

arXiv ID: 2605.10176

1️⃣ 一句话总结

arXiv ID: 2604.24542

1️⃣ 一句话总结

arXiv ID: 2604.24020

1️⃣ 一句话总结

arXiv ID: 2604.14604

1️⃣ 一句话总结

arXiv ID: 2603.28166

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19588 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.15441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27823 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17986 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15030 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10176 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24542 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28166 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19588

arXiv ID: 2606.15441

arXiv ID: 2605.27823

arXiv ID: 2605.17986

arXiv ID: 2605.15030

arXiv ID: 2605.10176

arXiv ID: 2604.24542

arXiv ID: 2604.24020

arXiv ID: 2604.14604

arXiv ID: 2603.28166