arXiv ID:
2601.21816
arXiv 提交日期: 2026-01-29
基于偏好数据的非参数化大语言模型评估 / Nonparametric LLM Evaluation from Preference Data
1️⃣ 一句话总结
本文提出了一个名为DMLEval的非参数统计框架,它利用去偏机器学习方法,能够更灵活、更可靠地从人类偏好数据中评估和排名不同的大语言模型,同时支持结合预训练模型作为评判者,并为数据收集提供优化建议。