arXiv ID:
2601.20834
arXiv 提交日期: 2026-01-28
语言模型中的线性表征在对话过程中会发生剧烈变化 / Linear representations in language models can change dramatically over a conversation
1️⃣ 一句话总结
这项研究发现,语言模型内部用于表示概念(比如事实性)的线性方向在对话过程中会发生剧烈且内容依赖性的变化,这意味着对模型特征的静态解释或控制可能不可靠,并揭示了模型会根据对话语境动态调整其内部表征。