arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.11171

arXiv 提交日期: 2026-04-13

medical computer vision model evaluation computer-aided detection low-prevalence benchmark barrett's esophagus neoplasia detection

在低患病率环境中开发和评估CADe系统：针对巴雷特瘤早期检测的RARE25挑战 / Development and evaluation of CADe systems in low-prevalence setting: The RARE25 challenge for early detection of Barrett's neoplasia

1️⃣ 一句话总结

这篇论文通过RARE25挑战赛，揭示了在巴雷特食管癌变这种罕见病的实际低患病率场景下，现有计算机辅助检测系统虽然识别能力强，但阳性预测值普遍偏低，容易高估临床效用，并呼吁开发更适应真实患病率变化的检测方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10866

arXiv 提交日期: 2026-04-13

agents benchmark model evaluation ai agents professional tasks environment simulation fault injection multi-agent synthesis

OccuBench：通过语言世界模型评估AI智能体在现实世界专业任务上的表现 / OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

1️⃣ 一句话总结

这篇论文提出了一个名为OccuBench的基准测试，它利用语言世界模型模拟专业环境，首次系统地评估了AI智能体在10个行业、65个专业领域的100个真实任务场景中的表现，并发现不同模型在不同行业各有所长，且处理隐含数据错误比显式错误更具挑战性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10736

arXiv 提交日期: 2026-04-12

audio benchmark natural language processing speech recognition multilingual asr evaluation framework irish language wer analysis

BlasBench：爱尔兰语语音识别的开放基准测试 / BlasBench: An Open Benchmark for Irish Speech Recognition

1️⃣ 一句话总结

这篇论文提出了一个专门用于爱尔兰语语音识别评估的开放基准测试工具BlasBench，它通过引入爱尔兰语特有的文本规范化处理和可复现的评分框架，揭示了现有模型在该语言上的性能差异和跨数据集泛化问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10425

arXiv 提交日期: 2026-04-12

multi-modal benchmark model evaluation vision-language models food domain fine-grained classification nutrition estimation visual question answering

DiningBench：一个用于饮食领域感知与推理的分层次多视角基准 / DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

1️⃣ 一句话总结

这篇论文提出了一个名为DiningBench的新基准测试，它通过包含多角度图片和精细分类的饮食数据，来全面评估AI模型在识别菜品、估算营养和回答食物相关问题上的能力，发现现有模型在细节分辨和精确营养推理方面仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10132

arXiv 提交日期: 2026-04-11

computer vision model evaluation benchmark image forensics semantic editing manipulation localization benchmark vision-language reasoning

语义篡改定位 / Semantic Manipulation Localization

1️⃣ 一句话总结

这篇论文提出了一个名为‘语义篡改定位’的新任务和对应的TRACE框架，专门用于检测图像中那些不明显但会改变图像含义的细微编辑，而不是依赖传统的篡改痕迹检测，从而在复杂的语义编辑场景中实现更准确、更完整的定位。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08863

arXiv 提交日期: 2026-04-10

computer vision natural language processing multi-modal visual reasoning symbolic regression scientific ai physics-informed benchmark

隐藏于眼前：从场可视化图像中推理视觉到符号的解析解 / Hidden in Plain Sight: Visual-to-Symbolic Analytical Solution Inference from Field Visualizations

1️⃣ 一句话总结

这篇论文提出了一种名为ViSA-R2的AI方法，它能像物理学家一样，通过观察二维物理场的可视化图像，自动推理并输出一个精确的、可执行的数学公式，从而将视觉信息转化为符号化的解析解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08457

arXiv 提交日期: 2026-04-09

computer vision benchmark multi-modal traffic crash analysis vision-language models infrastructure perception temporal reasoning safety-critical evaluation

CrashSight：一个面向交通碰撞场景理解与推理的、分阶段的、以基础设施为中心的视觉基准 / CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为CrashSight的大规模基准数据集，它利用真实世界的路边摄像头视频来评估视觉语言模型在理解和推理交通碰撞场景（包括原因、过程和结果）方面的能力，发现现有模型在关键安全场景的时序和因果推理上仍有不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07759

arXiv 提交日期: 2026-04-09

computer vision data benchmark ship detection small objects dataset object detection generalization

WUTDet：一个包含10万张图像、密集小目标的船舶检测数据集与基准测试 / WUTDet: A 100K-Scale Ship Detection Dataset and Benchmarks with Dense Small Objects

1️⃣ 一句话总结

这篇论文构建了一个大规模、场景多样且包含大量小目标的船舶检测数据集WUTDet，并基于此评估了多种主流检测模型，发现Transformer模型在复杂海况下检测精度最高，而CNN模型在实时性上更有优势，该数据集有效提升了船舶检测算法的研究和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07733

arXiv 提交日期: 2026-04-09

llm agents benchmark strategic decision-making multi-agent evaluation progress-based metrics game ai long-horizon planning

CivBench：基于进程的评估——用于评估大语言模型在《文明V》中的战略决策能力 / CivBench: Progress-Based Evaluation for LLMs' Strategic Decision-Making in Civilization V

1️⃣ 一句话总结

这篇论文提出了一个名为CivBench的新评估基准，它通过分析《文明V》游戏过程中每一回合的局势来动态预测胜率，从而更精细、更有效地衡量不同大语言模型在复杂、长期、多智能体竞争环境中的战略决策能力，而不仅仅是看最终输赢结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07956

arXiv 提交日期: 2026-04-09

multi-modal agents benchmark industry classification multimodal llm geospatial data multi-agent systems data enrichment

MONETA：通过多智能体系统利用地理信息进行多模态行业分类 / MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems

1️⃣ 一句话总结

这篇论文提出了一个名为MONETA的多模态行业分类新方法，它通过结合公司网站文本、维基百科信息和卫星图像等多种数据源，无需大量人工标注或模型重新训练，就能自动、高效地对欧洲企业进行行业分类，其最佳方案比现有基线模型提升了超过22%的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.11171

1️⃣ 一句话总结

arXiv ID: 2604.10866

1️⃣ 一句话总结

arXiv ID: 2604.10736

1️⃣ 一句话总结

arXiv ID: 2604.10425

1️⃣ 一句话总结

arXiv ID: 2604.10132

1️⃣ 一句话总结

arXiv ID: 2604.08863

1️⃣ 一句话总结

arXiv ID: 2604.08457

1️⃣ 一句话总结

arXiv ID: 2604.07759

1️⃣ 一句话总结

arXiv ID: 2604.07733

1️⃣ 一句话总结

arXiv ID: 2604.07956

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.11171 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10866 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10736 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10425 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08863 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08457 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07759 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07733 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07956 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.11171

arXiv ID: 2604.10866

arXiv ID: 2604.10736

arXiv ID: 2604.10425

arXiv ID: 2604.10132

arXiv ID: 2604.08863

arXiv ID: 2604.08457

arXiv ID: 2604.07759

arXiv ID: 2604.07733

arXiv ID: 2604.07956