arXiv ID:
2606.19222
arXiv 提交日期: 2026-06-17
机制引导的选择性遗忘:针对RLVR诱导推理行为的定向消除 / Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning
1️⃣ 一句话总结
本文提出一种名为MAST的新方法,通过分析模型内部注意力机制的变化模式,仅更新最关键的部分参数来精准消除强化学习(RLVR)训练带来的特定推理能力,同时最大程度保留模型在其他任务上的性能,相比传统全参数更新方法显著减少了副作用。