arXiv ID:
2509.21117
arXiv 提交日期: 2025-09-25
TrustJudge:大语言模型作为评估者的不一致性及其缓解方法 / TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
1️⃣ 一句话总结
这篇论文发现当前使用大语言模型自动评估答案时存在评分不一致和偏好循环的问题,并提出了一种名为TrustJudge的概率框架,通过连续评分和概率聚合方法显著减少了这些不一致性,从而提高了评估的可靠性。