arXiv ID:
2606.15441
基于推理的任务对齐:对抗自适应提示注入攻击的防御方法 / Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment
1️⃣ 一句话总结
本文提出一种名为RETA的训练方法,通过让AI助手在每次执行任务时先进行逻辑推理,判断外来指令是否与用户原始任务一致,从而有效抵御那些经过专门优化的复杂注入攻击,将攻击成功率控制在10%以下,同时保持较好的任务性能。