arXiv ID:
2601.10387
arXiv 提交日期: 2026-01-15
助手轴:定位与稳定语言模型的默认人格 / The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
1️⃣ 一句话总结
这项研究发现,大型语言模型的人格空间中存在一个主导的“助手轴”,它定义了模型默认的“乐于助人”行为模式,通过控制模型在这个轴上的激活位置,可以稳定其行为,防止其偏离正常人格并产生有害或怪异的输出。