arXiv最新AI论文速览速学

🔍

标签: #llm-as-a-judge ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: AutoSG: LLM-Driven Solver Generation Solely from Task Prompts for Expensive Optimization 05-26

arXiv ID: 2605.25658

arXiv 提交日期: 2026-05-25

llm systems model training solver generation expensive optimization retrieval-augmented generation self-refinement llm-as-a-judge

AutoSG：仅从任务提示出发、由大语言模型驱动的昂贵优化问题求解器自动生成方法 / AutoSG: LLM-Driven Solver Generation Solely from Task Prompts for Expensive Optimization

1️⃣ 一句话总结

本文提出一种名为AutoSG的自动化框架，它能直接将用户用自然语言描述的任务要求转化为专用于昂贵优化问题的高效求解器，通过引用已验证文献来避免幻觉、一次性的自优化来保留已有优秀结构，以及利用无需真实算例的大语言模型评分机制快速比较不同求解器的优劣，从而在多个实际任务上超越人工设计的顶尖方法和现有自动生成方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19141

arXiv 提交日期: 2026-05-18

llm agents natural language processing argument ranking interaction graph llm-as-a-judge deterministic sociotechnical

GRASP：交互图中确定性论点排名方法 / GRASP: Deterministic argument ranking in interaction graphs

1️⃣ 一句话总结

针对大型语言模型作为裁判时全局评分不稳定且难以解释的问题，本文提出GRASP框架，通过确定性传播算法将辩论中局部的支持与反驳关系聚合为全局排名，从而提供一种比传统整体打分更一致、更透明、且专注于论点结构鲁棒性而非说服力的评估方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24525

arXiv 提交日期: 2026-04-27

llm model evaluation machine learning code review evaluation automation industrial llm-as-a-judge

理解代码审查机器人自动评估在实际应用中的局限性 / Understanding the Limits of Automated Evaluation for Code Review Bots in Practice

1️⃣ 一句话总结

这篇论文通过分析工业界真实数据和多个AI模型，发现完全依靠自动化方法评估代码审查机器人（ACR）的评论质量，效果有限，因为开发者的标签行为会受到工作流程和组织压力的影响，并非客观标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21204

arXiv 提交日期: 2026-04-23

llm machine learning agents reasoning occupation prediction fine-tuning llm-as-a-judge career modeling

下一职业推荐背后的推理机制研究 / On Reasoning Behind Next Occupation Recommendation

1️⃣ 一句话总结

本文提出一种让大语言模型先生成用户职业选择理由、再据此预测下一职业的两步推理方法，并通过微调小型模型和使用AI裁判筛选高质量理由，显著提升了职业预测的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19071

arXiv 提交日期: 2026-04-21

llm model evaluation natural language processing writing evaluation benchmark llm-as-a-judge tree-of-writing chinese

HoWToBench：基于写作树的全方位评估大语言模型人类级写作能力 / HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing

1️⃣ 一句话总结

本文提出了一种名为Tree-of-Writing（ToW）的新评估方法，通过树状结构显式建模写作质量的多个子特征权重，解决了现有AI评判方法在长文本写作评估中的不一致性问题，并基于此构建了包含12种体裁和1302个指令的中文写作基准HowToBench，实验表明ToW与人类评分的相关性高达0.93，且对文本干扰具有鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10287

arXiv 提交日期: 2026-03-11

llm model evaluation data llm-as-a-judge tensor clustering evaluation bias multiway clustering score analysis

MultiwayPAM：用于LLM-as-a-Judge评分分析的多向围绕中心点划分方法 / MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

1️⃣ 一句话总结

本文提出了一种名为MultiwayPAM的张量聚类新方法，用于高效分析LLM作为评分员时产生的多维度评分数据，从而揭示评分偏差的结构并降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11027

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing llm-as-a-judge evaluation illusion rubric generation inter-evaluator agreement knowledge-grounded evaluation

超越共识的幻象：从表面启发式到基于知识的评估——论大语言模型作为评判者 / Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

1️⃣ 一句话总结

这篇论文挑战了‘大语言模型作为评判者时，评判结果高度一致就代表评估可靠’的普遍假设，指出这种共识常是假象，并提出了一个基于领域知识动态生成评估标准的新方法，能让评估在客观领域更一致、在主观领域更真实地反映多元观点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04033

arXiv 提交日期: 2026-03-04

llm medical model evaluation evaluation medical qa llm-as-a-judge semantic equivalence low-resource adaptation

谁来评判裁判？评估大语言模型作为法语医学开放式问答的评判者 / Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

1️⃣ 一句话总结

这项研究评估了用大语言模型自动评判法语医学开放式问答答案的可行性，发现评判结果受生成答案的模型影响很大，但通过针对性的轻量级训练，即使是小模型也能在资源有限的医学领域实现高效、可靠的自动评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01343

arXiv 提交日期: 2026-03-02

llm medical benchmark clinical evaluation hallucination detection pancreatic oncology llm-as-a-judge factual accuracy

PanCanBench：一个用于评估大语言模型在胰腺肿瘤学中应用的综合基准 / PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology

1️⃣ 一句话总结

这篇论文提出了一个名为PanCanBench的新基准测试，它基于真实的胰腺癌患者问题来评估大语言模型在临床回答中的完整性、事实准确性和搜索整合能力，发现即使高分模型也普遍存在事实性错误，且网络搜索不一定能提升回答质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15778

arXiv 提交日期: 2026-02-17

llm model evaluation natural language processing text generation evaluation llm-as-a-judge perplexity-based metric human alignment computational efficiency

-PLUIE：一种基于大语言模型且可个性化定制的改进评估指标* / -PLUIE: Personalisable metric with Llm Used for Improved Evaluation*

1️⃣ 一句话总结

这篇论文提出了一种名为*-PLUIE的新型评估方法，它通过改进现有技术，在保持低成本的同时，能更准确地评估AI生成文本的质量，并且可以根据不同任务进行个性化调整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.25658

1️⃣ 一句话总结

arXiv ID: 2605.19141

1️⃣ 一句话总结

arXiv ID: 2604.24525

1️⃣ 一句话总结

arXiv ID: 2604.21204

1️⃣ 一句话总结

arXiv ID: 2604.19071

1️⃣ 一句话总结

arXiv ID: 2603.10287

1️⃣ 一句话总结

arXiv ID: 2603.11027

1️⃣ 一句话总结

arXiv ID: 2603.04033

1️⃣ 一句话总结

arXiv ID: 2603.01343

1️⃣ 一句话总结

arXiv ID: 2602.15778

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.25658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19141 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24525 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21204 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19071 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04033 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01343 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15778 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.25658

arXiv ID: 2605.19141

arXiv ID: 2604.24525

arXiv ID: 2604.21204

arXiv ID: 2604.19071

arXiv ID: 2603.10287

arXiv ID: 2603.11027

arXiv ID: 2603.04033

arXiv ID: 2603.01343

arXiv ID: 2602.15778