← 返回列表

🤖 系统

📄 Abstract - TrustJudge: Resolving Inconsistencies in LLM-as-a-Judge Frameworks

⏳ 正在获取摘要...

顶级标签: llm systems

📄 论文总结

TrustJudge：解决LLM作为评估者框架中的不一致性问题

TrustJudge: Resolving Inconsistencies in LLM-as-a-Judge Frameworks

1️⃣ 一句话总结

论文提出了TrustJudge概率评估框架，通过分布敏感评分和似然感知聚合有效解决了LLM作为评估者系统中的评分比较不一致性和成对传递性不一致性问题。

2️⃣ 论文创新点

1. TrustJudge概率框架

创新点是什么：一个统一的概率评估框架，通过分布敏感评分和似然感知聚合解决LLM评估中的不一致性问题
与已有方法的区别/改进：使用连续期望计算替代离散评分系统，通过双向偏好概率或困惑度解决传递性违反问题
为什么有意义：首次系统分析LLM-as-a-Judge范式中的评估框架不一致性，提供理论见解和实用解决方案

2. 分布敏感评分

创新点是什么：从离散评分概率计算连续期望，保留信息以实现更精确的评估
与已有方法的区别/改进：克服离散评分系统中的信息丢失问题，将评分粒度从5点扩展到100点
为什么有意义：提供更精确的评估机制，减少评分比较不一致性，冲突率从23.32%降至14.89%

3. 似然感知聚合

创新点是什么：使用双向偏好概率或困惑度解决传递性违反问题
与已有方法的区别/改进：解决成对评估中的循环偏好链和等价矛盾问题
为什么有意义：确保评估结果的传递性和一致性，非传递性比率从15.22%降至4.40%

4. 容忍度超参数δ

创新点是什么：引入超参数δ来定义平局的容忍范围，当两个响应的差异不超过δ时被判定为平局
与已有方法的区别/改进：允许用户调整最终排名的粒度，无需重新训练模型
为什么有意义：提供评估灵活性和可调性

3️⃣ 主要结果与价值

实验结果亮点

在多个模型家族和规模上显著减少评估不一致性，冲突率绝对改善4.78%-8.43%，非传递性违规减少10.82%-36.93%
同时保持并提高了评估准确性，精确匹配率提升1.19%-6.85%，在成对评估中胜率达到45.41%-65.11%
方法在不同模型架构和参数规模上均保持鲁棒性，证明方法优势源于方法论创新而非特定模型特性

实际应用价值

无需额外训练或微调基础模型即可同时实现一致性和准确性的提升
在DPO训练中提升模型胜率，展示了框架在评估和偏好优化中的双重效用
增强了资源效率模型在对齐任务中的实际效用，缩小了大小模型之间的性能差距

4️⃣ 术语表

TrustJudge：解决LLM-as-a-Judge评估框架不一致性的概率框架
LLM-as-a-Judge：使用大型语言模型作为自动化评估器的范式
Score-Comparison Inconsistency：评分比较不一致性，源于整数评分系统中的信息丢失，导致细微质量差异被压缩为相同分数
Conflict Ratio (CR)：冲突比率，用于衡量评估不一致性在测试集中的普遍性
Non-Transitivity Ratio (NTR)：非传递性比率，用于评估成对比较中的传递性违反程度
PPL-based method：基于困惑度的方法，通过比较不同顺序的困惑度来确定成对比较结果
DPO：直接偏好优化，一种用于训练语言模型的强化学习方法

📄 打开原文 PDF