arXiv ID:
2512.20578
arXiv 提交日期: 2025-12-23
大语言模型能否预测自身的失败?通过内部电路实现自我感知 / Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits
1️⃣ 一句话总结
这篇论文提出了一种名为Gnosis的轻量级方法,让大语言模型能够通过分析自身在推理过程中的内部状态(如隐藏状态和注意力模式),高效且低成本地预测自己答案的对错,从而实现了模型的自我感知,无需依赖外部监督或大量额外计算。