arXiv ID:
2602.02315
arXiv 提交日期: 2026-02-02
信念的形状:沿着语言模型后验表示流形的几何、动态与干预 / The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors
1️⃣ 一句话总结
这篇论文发现大语言模型在内部并非简单地用直线概念表示信念,而是形成了复杂的弯曲“信念流形”,并指出基于几何结构的干预方法比传统的线性干预更有效、更能保持模型原有的推理能力。