arXiv ID:
2605.19485
arXiv 提交日期: 2026-05-19
基于注意力引导奖励的强化学习对大推理模型的越狱攻击 / Attention-Guided Reward for Reinforcement Learning-based Jailbreak against Large Reasoning Models
1️⃣ 一句话总结
本文发现对大推理模型的越狱攻击成功率与其注意力模式密切相关,并据此提出一种利用强化学习和注意力信号设计奖励函数的攻击方法,结合多样说服策略,显著提升了攻击的效果、效率和可迁移性。