arXiv ID:
2602.15481
arXiv 提交日期: 2026-02-17
预算约束下的LLM即法官 / LLM-as-Judge on a Budget
1️⃣ 一句话总结
这篇论文提出了一种在有限计算资源下,通过动态分配查询次数来更准确评估大语言模型性能的智能方法,其核心是优先将资源用于不确定性最高的评估项,从而显著降低整体评估误差。