arXiv最新AI论文速览速学

🔍

标签: #llm-as-a-judge ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: AutoSG: LLM-Driven Solver Generation Solely from Task Prompts for Expensive Optimization 05-26

arXiv ID: 2602.15481

arXiv 提交日期: 2026-02-17

llm model evaluation theory llm-as-a-judge budget allocation multi-armed bandit variance-adaptive automated assessment

预算约束下的LLM即法官 / LLM-as-Judge on a Budget

1️⃣ 一句话总结

这篇论文提出了一种在有限计算资源下，通过动态分配查询次数来更准确评估大语言模型性能的智能方法，其核心是优先将资源用于不确定性最高的评估项，从而显著降低整体评估误差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01714

arXiv 提交日期: 2026-02-02

medical llm natural language processing arabic medical qa multilingual evaluation dataset creation llm-as-a-judge clinical nlp

MedAraBench：大规模阿拉伯语医学问答数据集与基准 / MedAraBench: Large-Scale Arabic Medical Question Answering Dataset and Benchmark

1️⃣ 一句话总结

这篇论文创建了一个名为MedAraBench的大规模、高质量的阿拉伯语医学选择题数据集，并以此评估了多个先进大语言模型，旨在推动阿拉伯语医疗AI研究和提升模型的多语言临床能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22336

arXiv 提交日期: 2026-01-29

llm model evaluation machine learning label aggregation ising model annotator dependence bayesian inference llm-as-a-judge

基于伊辛模型的依赖感知标签聚合方法：用于大语言模型作为评估者 / Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models

1️⃣ 一句话总结

这篇论文提出了一种新的标签聚合方法，它通过伊辛模型来考虑不同评估者（包括大语言模型）之间的依赖关系，解决了传统方法因假设评估者相互独立而导致的错误预测问题，并在实际数据上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22322

arXiv 提交日期: 2025-12-26

agents llm model evaluation self-verification reinforcement learning gui agents evidence seeking llm-as-a-judge

SmartSnap：面向自验证智能体的主动证据寻求范式 / SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

1️⃣ 一句话总结

这篇论文提出了一种名为SmartSnap的新方法，让AI智能体在执行复杂任务时能主动收集少量关键证据来证明自己完成了任务，从而大幅降低了验证成本并提升了可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16899

arXiv 提交日期: 2025-12-18

multi-modal benchmark model evaluation reward models multimodal evaluation preference learning interleaved generation llm-as-a-judge

多模态奖励模型基准2：评估交错文本与图像的全能奖励模型 / Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

1️⃣ 一句话总结

这篇论文提出了首个用于评估能同时处理图文交错序列的‘全能奖励模型’的综合基准测试MMRB2，通过四个核心任务测试了当前主流模型的性能，发现最先进的模型如Gemini 3 Pro在判断质量上仍显著落后于人类专家，并揭示了未来奖励模型需要改进的关键方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16041

arXiv 提交日期: 2025-12-17

llm model evaluation benchmark llm-as-a-judge evaluation framework consistency metrics preference transitivity human bias

我们评估“大语言模型作为评判者”的方法正确吗？ / Are We on the Right Way to Assessing LLM-as-a-Judge?

1️⃣ 一句话总结

这篇论文提出了一个名为Sage的无监督评估框架，它通过检验大语言模型作为评判者时的逻辑自洽性，发现当前顶尖模型在近四分之一困难案例中存在判断不一致的问题，并揭示了人类标注本身也并非完全可靠的黄金标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21117

arXiv 提交日期: 2025-09-25

llm model evaluation natural language processing llm-as-a-judge evaluation framework inconsistency analysis probabilistic scoring automated assessment

TrustJudge：大语言模型作为评估者的不一致性及其缓解方法 / TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

1️⃣ 一句话总结

这篇论文发现当前使用大语言模型自动评估答案时存在评分不一致和偏好循环的问题，并提出了一种名为TrustJudge的概率框架，通过连续评分和概率聚合方法显著减少了这些不一致性，从而提高了评估的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.16949

arXiv 提交日期: 2025-08-23

llm reinforcement learning model training instructional scaffolding reasoning capabilities exploration bottleneck llm-as-a-judge rubric-guided learning

打破探索瓶颈：基于评分量规的强化学习用于通用大语言模型推理 / Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

1️⃣ 一句话总结

这项研究提出了一种名为RuscaRL的新方法，通过使用评分量规作为指导来帮助大语言模型在推理任务中更有效地探索高质量答案，并利用这些量规提供可靠的奖励信号进行强化学习，从而显著提升了模型在复杂推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.15481

1️⃣ 一句话总结

arXiv ID: 2602.01714

1️⃣ 一句话总结

arXiv ID: 2601.22336

1️⃣ 一句话总结

arXiv ID: 2512.22322

1️⃣ 一句话总结

arXiv ID: 2512.16899

1️⃣ 一句话总结

arXiv ID: 2512.16041

1️⃣ 一句话总结

arXiv ID: 2509.21117

1️⃣ 一句话总结

arXiv ID: 2508.16949

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.15481 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01714 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22336 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22322 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16041 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.16949 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.15481

arXiv ID: 2602.01714

arXiv ID: 2601.22336

arXiv ID: 2512.22322

arXiv ID: 2512.16899

arXiv ID: 2512.16041

arXiv ID: 2509.21117

arXiv ID: 2508.16949