arXiv ID:
2601.06238
arXiv 提交日期: 2026-01-08
SPINAL——神经对齐层中的缩放定律与偏好整合 / SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
1️⃣ 一句话总结
这篇论文提出了一种名为SPINAL的诊断工具,通过逐层分析模型内部几何结构的变化,揭示了直接偏好优化(DPO)对齐大语言模型时,其核心作用主要集中在模型最后的几层,使得模型的输出更集中、更稳定,从而为模型对齐过程提供了一个可量化的审计信号。