arXiv ID:
2606.24790
arXiv 提交日期: 2026-06-23
Grad Detect:基于梯度的语言模型幻觉检测方法 / Grad Detect: Gradient-Based Hallucination Detection in LLMs
1️⃣ 一句话总结
本文提出一种名为Grad Detect的新方法,通过分析大语言模型在推理时单次前向-反向传播中产生的梯度模式,来高效、准确地检测模型是否产生幻觉,实验表明该方法在多个问答基准上优于传统方法,且发现模型最后五层集中了97%以上的判别信息,从而可在几乎不损失性能的情况下实现轻量部署。