arXiv ID:
2602.04521
arXiv 提交日期: 2026-02-04
C-ΔΘ:用于选择性拒绝的电路限制权重算术 / $C$-$ΔΘ$: Circuit-Restricted Weight Arithmetic for Selective Refusal
1️⃣ 一句话总结
这篇论文提出了一种名为C-ΔΘ的新方法,它通过离线修改大语言模型内部一个极小的特定电路(通常涉及不到5%的参数),就能让模型学会在特定情况下安全地拒绝回答,而无需在每次使用时都进行额外的计算干预,从而降低了部署成本和复杂性。