arXiv ID:
2602.15481
预算约束下的LLM即法官 / LLM-as-Judge on a Budget
1️⃣ 一句话总结
这篇论文提出了一种在有限计算资源下,通过动态分配查询次数来更准确评估大语言模型性能的智能方法,其核心是优先将资源用于不确定性最高的评估项,从而显著降低整体评估误差。
预算约束下的LLM即法官 / LLM-as-Judge on a Budget
这篇论文提出了一种在有限计算资源下,通过动态分配查询次数来更准确评估大语言模型性能的智能方法,其核心是优先将资源用于不确定性最高的评估项,从而显著降低整体评估误差。
MedAraBench:大规模阿拉伯语医学问答数据集与基准 / MedAraBench: Large-Scale Arabic Medical Question Answering Dataset and Benchmark
这篇论文创建了一个名为MedAraBench的大规模、高质量的阿拉伯语医学选择题数据集,并以此评估了多个先进大语言模型,旨在推动阿拉伯语医疗AI研究和提升模型的多语言临床能力。
基于伊辛模型的依赖感知标签聚合方法:用于大语言模型作为评估者 / Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models
这篇论文提出了一种新的标签聚合方法,它通过伊辛模型来考虑不同评估者(包括大语言模型)之间的依赖关系,解决了传统方法因假设评估者相互独立而导致的错误预测问题,并在实际数据上取得了更好的效果。
SmartSnap:面向自验证智能体的主动证据寻求范式 / SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
这篇论文提出了一种名为SmartSnap的新方法,让AI智能体在执行复杂任务时能主动收集少量关键证据来证明自己完成了任务,从而大幅降低了验证成本并提升了可靠性。
多模态奖励模型基准2:评估交错文本与图像的全能奖励模型 / Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
这篇论文提出了首个用于评估能同时处理图文交错序列的‘全能奖励模型’的综合基准测试MMRB2,通过四个核心任务测试了当前主流模型的性能,发现最先进的模型如Gemini 3 Pro在判断质量上仍显著落后于人类专家,并揭示了未来奖励模型需要改进的关键方向。
我们评估“大语言模型作为评判者”的方法正确吗? / Are We on the Right Way to Assessing LLM-as-a-Judge?
这篇论文提出了一个名为Sage的无监督评估框架,它通过检验大语言模型作为评判者时的逻辑自洽性,发现当前顶尖模型在近四分之一困难案例中存在判断不一致的问题,并揭示了人类标注本身也并非完全可靠的黄金标准。
TrustJudge:大语言模型作为评估者的不一致性及其缓解方法 / TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
这篇论文发现当前使用大语言模型自动评估答案时存在评分不一致和偏好循环的问题,并提出了一种名为TrustJudge的概率框架,通过连续评分和概率聚合方法显著减少了这些不一致性,从而提高了评估的可靠性。
打破探索瓶颈:基于评分量规的强化学习用于通用大语言模型推理 / Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
这项研究提出了一种名为RuscaRL的新方法,通过使用评分量规作为指导来帮助大语言模型在推理任务中更有效地探索高质量答案,并利用这些量规提供可靠的奖励信号进行强化学习,从而显著提升了模型在复杂推理任务上的表现。
请先 登录 后再提交论文