arXiv ID:
2606.26429
arXiv 提交日期: 2026-06-24
DualEval:通过模型与题目的联合校准实现统一的LLM评估 / DualEval: Joint Model-Item Calibration for Unified LLM Evaluation
1️⃣ 一句话总结
本文提出了DualEval框架,它通过将大语言模型和评估题目映射到同一个潜在空间,并联合分析模型能力、题目难度和区分度,从而将传统的静态基准测试与偏好评测两种评估方式统一起来,最终生成更可靠、更高效的模型排名和题目诊断信息。