arXiv最新AI论文速览速学

🔍

标签: #evaluation benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents 03-16

arXiv ID: 2603.11772

arXiv 提交日期: 2026-03-12

llm benchmark natural language processing retrieval-augmented generation legal documents evaluation benchmark chinese law clause-level retrieval

Legal-DC：面向法律文档的检索增强生成基准评测 / Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents

1️⃣ 一句话总结

本研究针对中文法律场景，创建了一个专门的评测数据集并提出了一个能更好理解法律条文结构的智能问答框架，显著提升了法律文件咨询的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08090

arXiv 提交日期: 2026-03-09

benchmark model evaluation aigc text-to-image generation subject-driven generation evaluation benchmark subject identity consistency hierarchical taxonomy

DSH-Bench：一个面向主体驱动文本到图像生成的、具有层次化主体分类的难度与场景感知基准 / DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为DSH-Bench的新基准测试工具，它通过引入层次化主体分类、难度与场景评估维度以及更准确的评估指标，系统性地解决了现有主体驱动文生图模型在评估时面临的多样性不足、分析粒度粗糙和缺乏诊断指导等问题，并为未来模型优化指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03657

arXiv 提交日期: 2026-03-04

multi-modal model evaluation benchmark image editing logical reasoning evaluation benchmark multimodal models dynamic processes

InEdit-Bench：用于智能图像编辑模型的中间逻辑路径基准测试 / InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

1️⃣ 一句话总结

这篇论文提出了首个用于评估图像编辑模型在复杂多步骤任务中动态推理能力的基准测试工具InEdit-Bench，发现当前主流模型在此方面存在普遍不足，旨在推动开发更具逻辑理解和推理能力的智能图像生成模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04334

arXiv 提交日期: 2026-03-04

llm model evaluation natural language processing text-to-sql verification equivalence checking constraint mining evaluation benchmark

SpotIt+：基于验证和数据库约束的文本到SQL评估工具 / SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints

1️⃣ 一句话总结

这篇论文提出了一个名为SpotIt+的开源工具，它通过自动寻找能区分AI生成的SQL查询和标准答案的数据库实例来评估文本转SQL系统，并利用挖掘出的数据库约束来确保找到的差异具有实际意义，从而比传统测试方法更高效、更准确地发现潜在问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02024

arXiv 提交日期: 2026-03-02

multi-modal benchmark model evaluation multimodal reasoning multi-image understanding real-world scenarios reasoning types evaluation benchmark

MMR-Life：为多模态多图像推理拼凑真实生活场景 / MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MMR-Life的新基准测试，旨在全面评估多模态大语言模型在真实生活场景中整合多张图片并进行七种不同类型推理的能力，结果显示当前最先进的模型在此任务上仍面临巨大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01724

arXiv 提交日期: 2026-03-02

llm benchmark natural language processing content moderation evaluation benchmark policy compliance multi-policy violation dynamic guidelines

GMP：一个针对规则共存违规与动态规则下的内容审核基准 / GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

1️⃣ 一句话总结

这篇论文提出了一个名为GMP的新基准，用于测试AI在内容审核中处理‘一条内容同时违反多条规则’和‘审核规则动态变化’这两个现实难题的能力，揭示了当前大语言模型在复杂、动态的真实场景下判断力会下降的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01357

arXiv 提交日期: 2026-03-02

agents benchmark llm tool-use agents personal context multi-step reasoning evaluation benchmark action planning

ASTRA-bench：基于个人用户情境评估工具使用智能体的推理与行动规划能力 / ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context

1️⃣ 一句话总结

这篇论文提出了一个名为ASTRA-bench的新基准测试，它通过结合动态变化的个人生活情境和复杂任务来评估AI助手使用工具、进行推理和制定多步骤计划的能力，结果发现当前最先进的AI模型在处理高复杂性个人情境任务时表现显著下降，揭示了其在现实场景中的关键局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22897

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark omni-modal agents tool usage cross-modal reasoning foundation agent evaluation benchmark

OmniGAIA：迈向原生全模态AI助手 / OmniGAIA: Towards Native Omni-Modal AI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OmniGAIA的全模态AI助手评估基准，并开发了一个名为OmniAtlas的原生全模态基础智能体，旨在让AI能像人类一样综合处理视觉、听觉和语言信息，并进行复杂推理和工具调用，以更好地解决现实世界中的复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22638

arXiv 提交日期: 2026-02-26

llm agents benchmark route planning evaluation benchmark real-world mobility tool use api-replay sandbox

MobilityBench：一个用于评估现实世界移动场景中路线规划智能体的基准 / MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为MobilityBench的标准化测试平台，专门用来评估基于大语言模型的路线规划助手在真实世界出行场景中的表现，发现现有模型在满足个性化偏好方面仍有很大提升空间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23166

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark multimodal agents tool use evaluation benchmark long-horizon tasks visual reasoning

AgentVista：在超挑战性真实视觉场景中评估多模态智能体 / AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为AgentVista的新基准测试，用于评估多模态智能体在包含丰富视觉细节和需要长时间、多步骤工具协作的真实复杂任务中的表现，结果发现当前最先进的模型在此类任务上仍存在巨大能力差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.11772

1️⃣ 一句话总结

arXiv ID: 2603.08090

1️⃣ 一句话总结

arXiv ID: 2603.03657

1️⃣ 一句话总结

arXiv ID: 2603.04334

1️⃣ 一句话总结

arXiv ID: 2603.02024

1️⃣ 一句话总结

arXiv ID: 2603.01724

1️⃣ 一句话总结

arXiv ID: 2603.01357

1️⃣ 一句话总结

arXiv ID: 2602.22897

1️⃣ 一句话总结

arXiv ID: 2602.22638

1️⃣ 一句话总结

arXiv ID: 2602.23166

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.11772 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08090 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04334 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02024 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01357 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22897 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22638 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23166 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.11772

arXiv ID: 2603.08090

arXiv ID: 2603.03657

arXiv ID: 2603.04334

arXiv ID: 2603.02024

arXiv ID: 2603.01724

arXiv ID: 2603.01357

arXiv ID: 2602.22897

arXiv ID: 2602.22638

arXiv ID: 2602.23166