arXiv ID:
2601.05905
arXiv 提交日期: 2026-01-09
自信的幻觉?通过邻域一致性诊断大语言模型的真实性 / Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
1️⃣ 一句话总结
这篇论文发现大语言模型对事实的‘自信’回答可能很脆弱,并提出了一种通过检测模型在相关概念扰动下回答是否一致的新方法(邻域一致性信念)来评估和提升其信念的稳健性,最终通过结构感知训练显著减少了知识错误。