arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Agentic AI for Remote Sensing: Technical Challenges and Research Directions 05-02

arXiv ID: 2604.26904

arXiv 提交日期: 2026-04-29

agents machine learning training data synthesis reinforcement learning benchmark agent evaluation

ClawGym：构建高效个人数字助理的可扩展框架 / ClawGym: A Scalable Framework for Building Effective Claw Agents

1️⃣ 一句话总结

本文提出ClawGym框架，通过自动生成大规模、可验证的训练数据（13.5K任务），并利用监督微调和轻量级强化学习训练AI代理，同时构建了200个测试样本的基准，从而系统性地解决了开发个人数字助理（能操作本地文件、工具和持久工作空间）时缺乏标准化流程和评估方法的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26235

arXiv 提交日期: 2026-04-29

agents llm evaluation crypto benchmark decision support llm judges copilot

LATTICE：评估加密代理的决策支持效用 / LATTICE: Evaluating Decision Support Utility of Crypto Agents

1️⃣ 一句话总结

该论文提出了LATTICE基准，通过六个评估维度和十六种任务类型，利用大语言模型自动评分，系统性地衡量加密代理在实际用户场景中辅助决策的能力，并通过对六个真实加密助手的测试揭示了不同代理在决策支持质量上的关键差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25862

arXiv 提交日期: 2026-04-28

llm systems benchmark rest api test generation requirements mutation testing evaluation

RESTestBench：一个用于评估大语言模型从自然语言需求生成的REST API测试用例有效性的基准 / RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements

1️⃣ 一句话总结

本文提出了RESTestBench基准测试，包含三个REST服务及其人工验证的自然语言需求，并通过引入基于需求的变异测试指标，评估了大语言模型在生成测试用例时，是否真正能检验软件的功能行为，结果发现当模型与有缺陷的代码交互时，测试有效性会显著下降，尤其对模糊需求影响更大。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25884

arXiv 提交日期: 2026-04-28

benchmark multi-modal model evaluation quantum computing vision-language models calibration plot in-context learning fine-tuning

QCalEval：量子校准图理解的视觉语言模型基准测试 / QCalEval: Benchmarking Vision-Language Models for Quantum Calibration Plot Understanding

1️⃣ 一句话总结

该论文提出了首个专门评估视觉语言模型（VLM）理解量子计算校准图表能力的基准测试QCalEval，发现通用模型在零样本下表现尚可，但多图学习时开权重模型性能下降，而微调虽能提升零样本效果却无法弥补多模态上下文学习的差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25359

arXiv 提交日期: 2026-04-28

llm model evaluation benchmark structured output multi-source schema compliance value accuracy text normalization

结构化输出基准：用于评估大语言模型结构化输出质量的多源基准 / The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models

1️⃣ 一句话总结

本文提出了一个名为SOB的多源基准测试，通过文本、图像和音频三种输入来源，全面评估大语言模型生成结构化数据（如从发票、病历中提取信息）的能力，结果显示虽然模型在遵循JSON格式上表现很好，但在精确值匹配上，尤其是音频和图像任务中，准确率仍然较低，表明结构化输出能力仍有显著提升空间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25737

arXiv 提交日期: 2026-04-28

llm agents natural language processing multi-agent code editing benchmark hallucination reduction iterative refinement

SAFEdit：多智能体分解能否解决指令式代码编辑的可靠性挑战？ / SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?

1️⃣ 一句话总结

本研究提出SAFEdit，一个由规划、编辑和验证三个专门智能体协作的多智能体框架，通过将代码编辑任务分解为不同角色并引入结构化错误诊断机制，显著提升了指令式代码编辑的可靠性，在EditBench基准上将成功率从低于60%提升至68.6%，并有效减少了代码编辑中的指令幻觉问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25122

arXiv 提交日期: 2026-04-28

multi-modal benchmark llm visual question answering multi-hop reasoning mllm evaluation knowledge base retrieval-augmented

M³-VQA：面向多模态、多实体、多跳视觉问答的基准数据集 / M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

1️⃣ 一句话总结

该论文提出了一个名为M³-VQA的新型视觉问答基准，专门设计用于测试多模态大模型在同时处理多个实体、结合文本与图像信息，并进行多步推理方面的能力，实验发现现有模型在没有外部知识时表现很差，但提供精确证据后性能显著提升，同时结构化推理比简单搜索更有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25109

arXiv 提交日期: 2026-04-28

agents systems llm security auditing robustness benchmark classification semantic verification

面向不可信智能体技能的结构化安全审计与鲁棒性增强 / Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills

1️⃣ 一句话总结

本文提出了一种名为SkillGuard-Robust的系统，通过在加载前对智能体技能包进行跨文件的角色感知证据提取、语义验证和一致性裁决，将安全审计从简单的单次提示过滤升级为鲁棒的三分类任务，实验表明该方法能有效抵御恶意改写攻击，并在多数据集中达到97%以上的安全检测准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25231

arXiv 提交日期: 2026-04-28

multi-modal benchmark evaluation diagram question answering visual reasoning evidence grounding vision-language model localization

DRAGON：一个用于评估图表中基于证据的视觉推理的基准测试 / DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams

1️⃣ 一句话总结

本文提出了一个名为DRAGON的基准测试，专门用来评估AI模型在理解图表（如图表、地图、电路图等）时，是否真的能找出并标注出那些支持其答案的关键视觉区域，而不仅仅是猜对答案，从而让图表推理过程更可靠、更透明。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25665

arXiv 提交日期: 2026-04-28

llm natural language processing evaluation summarization self-evaluation benchmark legal document meta-evaluation

LLM-ReSum：一种通过自我评估实现大语言模型反思式摘要的框架 / LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

1️⃣ 一句话总结

本研究通过系统评估14种摘要评价指标，发现传统指标与人工判断相关性弱，而基于大语言模型的评估器更准确，并据此提出LLM-ReSum框架——让模型在无需微调的情况下，通过自我评估和反馈循环不断改进生成的摘要，在事实准确性和内容覆盖率上分别提升高达33%和39%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.26904

1️⃣ 一句话总结

arXiv ID: 2604.26235

1️⃣ 一句话总结

arXiv ID: 2604.25862

1️⃣ 一句话总结

arXiv ID: 2604.25884

1️⃣ 一句话总结

arXiv ID: 2604.25359

1️⃣ 一句话总结

arXiv ID: 2604.25737

1️⃣ 一句话总结

arXiv ID: 2604.25122

1️⃣ 一句话总结

arXiv ID: 2604.25109

1️⃣ 一句话总结

arXiv ID: 2604.25231

1️⃣ 一句话总结

arXiv ID: 2604.25665

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.26904 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26235 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25862 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25884 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25359 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25122 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25109 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25231 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25665 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.26904

arXiv ID: 2604.26235

arXiv ID: 2604.25862

arXiv ID: 2604.25884

arXiv ID: 2604.25359

arXiv ID: 2604.25737

arXiv ID: 2604.25122

arXiv ID: 2604.25109

arXiv ID: 2604.25231

arXiv ID: 2604.25665