arXiv ID:
2606.12360
arXiv 提交日期: 2026-06-10
训练后阶段的剖析:利用可解释性刻画数据并塑造学习信号 / Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal
1️⃣ 一句话总结
本文提出一种基于可解释性的数据驱动训练后优化方法,通过分析偏好数据中隐含的概念特征,让研究者能够明确识别并干预模型学到的行为(如过度风格化或谄媚),从而将原本黑箱式的奖励优化转变为可审计、可定制的学习信号塑造过程。