arXiv ID:
2604.11867
arXiv 提交日期: 2026-04-13
小规模模型的行为特质蒸馏:一个包含三个研究路径的负面结果 / Disposition Distillation at Small Scale: A Three-Arc Negative Result
1️⃣ 一句话总结
这篇论文通过一系列严谨的实验发现,试图将‘自我验证’、‘承认不确定性’等行为特质‘蒸馏’到小型语言模型中的多种方法均告失败,这些方法要么损害模型内容质量,要么只是让模型学会了模仿风格,无法真正提升其内在的行为特质。