arXiv最新AI论文速览速学

🔍

标签: #automated evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Expert Consensus on Criteria for the Automated Assessment of Laparoscopic Camera Navigation 06-23

arXiv ID: 2606.23131

arXiv 提交日期: 2026-06-22

medical computer vision machine learning surgical skill assessment laparoscopic camera navigation automated evaluation clinical survey

腹腔镜镜头操作自动评估标准的专家共识 / Expert Consensus on Criteria for the Automated Assessment of Laparoscopic Camera Navigation

1️⃣ 一句话总结

本研究通过专家调查与计算机视觉技术评估，确定了14项腹腔镜镜头操作技能的关键指标，并绘制了临床重要性与技术可行性的对照矩阵，为开发自动评估AI工具提供了明确路线图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01957

arXiv 提交日期: 2026-04-02

llm benchmark natural language processing translation quality automated evaluation dataset cleaning comet metric multilingual benchmarks

诊断翻译基准：对EU20基准套件的自动化质量保证研究 / Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite

1️⃣ 一句话总结

这篇论文通过一套自动化质量保证方法，系统地评估了机器翻译基准数据集的质量，发现翻译质量较低的基准数据集中包含更多错误，并发布了清洗后的数据集和工具，为大规模验证翻译可靠性提供了实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23806

arXiv 提交日期: 2026-03-25

agents model evaluation systems agentic traces specification compliance procedural failure detection automated evaluation behavioral rules

故意不服从：自动检测智能体执行轨迹中的故障 / Willful Disobedience: Automatically Detecting Failures in Agentic Traces

1️⃣ 一句话总结

这篇论文介绍了一个名为AgentPex的AI工具，它能从智能体的指令中提取行为规则，并自动检查智能体在执行多步骤任务过程中的每一步是否符合规定，从而发现仅靠最终结果评分会遗漏的流程性错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10477

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing prompt engineering evaluation metrics interpretability benchmarking automated evaluation

PEEM：用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

1️⃣ 一句话总结

这篇论文提出了一个名为PEEM的评估框架，它通过一套包含9个维度的结构化标准（如提示的清晰度、公平性，回答的准确性、连贯性等），并借助大语言模型自动给出评分和解释性理由，从而能系统地诊断和优化用户与大语言模型的交互过程，而不仅仅是判断答案对错。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20629

arXiv 提交日期: 2026-02-24

llm model evaluation benchmark automated evaluation mathematical proofs alignment gap human-ai alignment judge bias

QEDBENCH：量化大学水平数学证明自动评估中的对齐差距 / QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs

1️⃣ 一句话总结

这篇论文通过发布一个名为QEDBench的新基准测试，量化了当前主流大语言模型在评估大学高年级数学证明时，其评分与人类专家评分之间存在显著且系统性的偏差，揭示了自动评估在复杂推理任务上的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.18891

arXiv 提交日期: 2026-02-21

llm agents model evaluation multi-agent systems workflow orchestration question generation automated evaluation scientific research

为科学研究编排大型语言模型智能体：一项关于多项选择题生成与评估的试点研究 / Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation

1️⃣ 一句话总结

这项试点研究表明，通过人类研究者协调多个大型语言模型智能体，可以构建一个自动化生成和评估多项选择题的AI研究流程，虽然生成的题目在表面质量上表现优异，但在深度技能和认知参与度等方面仍与专家题目存在差距，同时研究者的角色也从直接创作转向了对整个AI工作流程的规范、编排与监督。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09688

arXiv 提交日期: 2026-01-14

agents benchmark model evaluation automated evaluation multi-step research fact-checking task generation agentic systems

DeepResearchEval：一种用于深度研究任务构建与智能体评估的自动化框架 / DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为DeepResearchEval的自动化框架，它能够自动生成复杂的深度研究任务，并利用一个智能评估系统来动态、全面地评估研究系统的表现，特别解决了传统方法在任务构建上依赖人工标注、评估维度僵化以及难以核实无引用事实的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17419

arXiv 提交日期: 2025-12-19

llm systems benchmark code generation software engineering automated evaluation multi-language test oracle

SWE-Bench++：一个用于自动化生成多语言软件工程基准测试的框架 / SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

1️⃣ 一句话总结

SWE-Bench++是一个自动化框架，能够从真实的GitHub拉取请求中大规模、多语言地生成可执行的软件工程基准测试任务，并通过创新的状态差分测试预言机和提示引导的轨迹合成等方法，显著提升了基准测试的规模、多样性、可靠性和对模型改进的实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16921

arXiv 提交日期: 2025-12-18

model evaluation multi-modal llm capability auditing failure mode discovery automated evaluation model rectification reinforcement learning

差异至关重要：用于能力差距发现与修正的模型审计框架 / Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

1️⃣ 一句话总结

这篇论文提出了一个名为AuditDM的自动化审计框架，它通过生成能最大化不同模型之间分歧的挑战性问题和图像，来主动发现并修正多模态大语言模型的能力缺陷，从而在无需人工标注的情况下有效提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14942

arXiv 提交日期: 2025-10-16

llm model training model evaluation process reward modeling monte carlo tree search reasoning verification step-level supervision automated evaluation

GroundedPRM：基于树引导和保真度感知的过程奖励建模用于步骤级推理 / GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为GroundedPRM的新方法，通过结合树搜索算法和外部工具验证，自动生成高质量的过程监督信号，从而显著提升大语言模型在多步推理任务中的准确性和可解释性，且所需训练数据量仅为现有最佳方法的10%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.23131

1️⃣ 一句话总结

arXiv ID: 2604.01957

1️⃣ 一句话总结

arXiv ID: 2603.23806

1️⃣ 一句话总结

arXiv ID: 2603.10477

1️⃣ 一句话总结

arXiv ID: 2602.20629

1️⃣ 一句话总结

arXiv ID: 2602.18891

1️⃣ 一句话总结

arXiv ID: 2601.09688

1️⃣ 一句话总结

arXiv ID: 2512.17419

1️⃣ 一句话总结

arXiv ID: 2512.16921

1️⃣ 一句话总结

arXiv ID: 2510.14942

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.23131 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01957 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23806 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10477 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20629 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.18891 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09688 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17419 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16921 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14942 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.23131

arXiv ID: 2604.01957

arXiv ID: 2603.23806

arXiv ID: 2603.10477

arXiv ID: 2602.20629

arXiv ID: 2602.18891

arXiv ID: 2601.09688

arXiv ID: 2512.17419

arXiv ID: 2512.16921

arXiv ID: 2510.14942