arXiv ID:
2602.11096
arXiv 提交日期: 2026-02-11
安全恢复离推理模型仅几步之遥:早期干预即可实现 / Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away
1️⃣ 一句话总结
这篇论文提出了一种名为SafeThink的轻量级防御方法,它通过在推理过程中早期检测并注入简短的安全提示,就能有效降低大模型被恶意攻击的风险,同时不损害其原有的推理能力。