arXiv ID:
2604.11802
arXiv 提交日期: 2026-04-13
心理学概念神经元:神经控制能否在大型语言模型中引导探测并改变生成? / Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?
1️⃣ 一句话总结
这项研究发现,通过定位并操控大型语言模型中与“大五”人格特质相关的特定神经元,可以有效改变模型内部对这些特质的表征,但难以稳定地控制模型最终生成与人格相关的文本行为,揭示了模型内部表征控制与外部行为控制之间的差距。