arXiv ID:
2606.27226
arXiv 提交日期: 2026-06-25
问而不评:利用二元问题实现可解释的LLM评估与自我改进 / Ask, Don't Judge: Binary Questions for Interpretable LLM Evaluation and Self-Improvement
1️⃣ 一句话总结
该论文提出了BINEVAL框架,通过将评估标准拆解为一系列简单的“是/否”二元问题,让语言模型逐条回答并汇总成可解释的多维度评分,从而高效、透明地评估模型输出质量,并支持自动优化模型提示词,在多项基准测试中表现优于现有方法。