arXiv最新AI论文速览速学

🔍

标签: #evaluation metric ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: NeocorRAG: Less Irrelevant Information, More Explicit Evidence, and More Effective Recall via Evidence Chains 05-04

arXiv ID: 2604.27852

arXiv 提交日期: 2026-04-30

llm machine learning systems retrieval-augmented generation evaluation metric evidence chain retrieval quality question answering

NeocorRAG：通过证据链减少无关信息、增加显式证据并实现更有效的检索 / NeocorRAG: Less Irrelevant Information, More Explicit Evidence, and More Effective Recall via Evidence Chains

1️⃣ 一句话总结

本文提出NeocorRAG框架，通过挖掘和利用“证据链”来优化检索质量，在保持高召回率的同时大幅减少无关信息，从而显著提升大语言模型在问答任务中的推理准确率，且无需额外训练、效率更高。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25130

arXiv 提交日期: 2026-04-28

natural language processing model evaluation llm summarization question-answering evaluation metric feedback-driven refinement long document

LongSumEval：基于问答的长文档摘要评估与反馈驱动改进方法 / LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization

1️⃣ 一句话总结

本论文提出一个统一框架，通过问答形式来评估长文档摘要的质量，不仅能给出分数，还能提供具体改进建议，帮助模型自动修正错误，从而让摘要更准确、更可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06160

arXiv 提交日期: 2026-04-07

natural language processing computer vision model evaluation optical character recognition evaluation metric document understanding character error rate page parsing

字符错误向量：用于页面级OCR评估的可分解错误 / The Character Error Vector: Decomposable errors for page-level OCR evaluation

1️⃣ 一句话总结

本文提出了一种名为‘字符错误向量’的新评估方法，它不仅能像传统指标一样衡量OCR的字符识别准确度，还能将整体错误分解为文本解析和字符识别等不同来源，从而帮助研究人员更精准地定位和优化文档理解流程中的薄弱环节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28301

arXiv 提交日期: 2026-03-30

robotics benchmark model evaluation vision-language-action paraphrase robustness linguistic generalization evaluation metric instruction following

LIBERO-Para：一个用于评估视觉-语言-动作模型对指令改写鲁棒性的诊断基准与度量标准 / LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

1️⃣ 一句话总结

这篇论文提出了一个名为LIBERO-Para的新基准测试，用于系统评估机器人操控中视觉-语言-动作模型对指令改写的鲁棒性，发现模型性能会因同义词替换等简单改写而大幅下降，并提出了一个能衡量改写难度的新度量标准PRIDE。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14803

arXiv 提交日期: 2026-03-16

audio multi-modal model evaluation speech extraction overlap ratio dataset evaluation metric speech separation

VorTEX：面向目标语音提取的多种重叠率研究 / VorTEX: Various overlap ratio for Target speech EXtraction

1️⃣ 一句话总结

这篇论文提出了一种名为VorTEX的新模型，它通过一种解耦的多分支融合技术，能够在说话人声音重叠比例从20%到100%的各种真实场景中，更稳健地提取出目标语音，同时避免了现有方法可能产生的抑制或残留干扰问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14691

arXiv 提交日期: 2026-02-16

agents systems benchmark goal recognition planning dataset generation multi-agent systems evaluation metric

通过多计划数据集生成消除目标识别中的规划器偏见 / Removing Planner Bias in Goal Recognition Through Multi-Plan Dataset Generation

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过为同一个目标生成多种不同的行动计划来构建数据集，从而消除现有目标识别评估中因依赖单一规划器而产生的系统性偏见，并引入了一个新指标来衡量识别模型在不同计划下的稳健性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05289

arXiv 提交日期: 2026-02-05

llm agents systems multi-agent systems collective ai evaluation metric collaboration gain design science

迈向集体人工智能科学：基于LLM的多智能体系统需要从盲目试错转向严谨科学 / Towards a Science of Collective AI: LLM-based Multi-Agent Systems Need a Transition from Blind Trial-and-Error to Rigorous Science

1️⃣ 一句话总结

这篇论文指出当前基于大语言模型的多智能体系统研究过于依赖试错，缺乏科学框架，因此提出了一个包含统一协作增益指标和系统化因素库的集成框架，旨在将该领域从盲目实验转变为严谨科学。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.18470

arXiv 提交日期: 2025-12-20

agents benchmark model evaluation coding agents software evolution long-horizon reasoning multi-file tasks evaluation metric

SWE-EVO：在长周期软件演化场景中评估代码智能体 / SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为SWE-EVO的新基准测试，它模拟了需要跨多个文件进行多步骤修改的真实软件长期演化任务，并发现当前最先进的AI编程模型在此类复杂任务上的表现远低于处理单一、孤立问题的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.19282

arXiv 提交日期: 2025-09-23

computer vision model evaluation benchmark layout-to-image image generation overlap analysis evaluation metric amodal completion

OverLayBench：面向密集重叠布局的图像生成基准 / OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

1️⃣ 一句话总结

这篇论文提出了一个专门评估图像生成模型在复杂重叠布局下性能的新基准和量化指标，并通过改进模型初步提升了重叠场景的生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27852

1️⃣ 一句话总结

arXiv ID: 2604.25130

1️⃣ 一句话总结

arXiv ID: 2604.06160

1️⃣ 一句话总结

arXiv ID: 2603.28301

1️⃣ 一句话总结

arXiv ID: 2603.14803

1️⃣ 一句话总结

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2602.14691

1️⃣ 一句话总结

arXiv ID: 2602.05289

1️⃣ 一句话总结

arXiv ID: 2512.18470

1️⃣ 一句话总结

arXiv ID: 2509.19282

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27852 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14691 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05289 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.18470 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.19282 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27852

arXiv ID: 2604.25130

arXiv ID: 2604.06160

arXiv ID: 2603.28301

arXiv ID: 2603.14803

arXiv ID: 2603.10990

arXiv ID: 2602.14691

arXiv ID: 2602.05289

arXiv ID: 2512.18470

arXiv ID: 2509.19282