arXiv最新AI论文速览速学

🔍

benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: LUMINA-26: Low-Light Understanding for Modeling and Interpreting Night-time Actions 06-23

arXiv ID: 2606.13332

arXiv 提交日期: 2026-06-11

computer vision benchmark action recognition scene graph operating room multi-view alignment temporal reasoning

OR-Action：带细粒度动作的多角色手术室视频理解 / OR-Action: Multi-Role Video Understanding with Fine-Grained Actions

1️⃣ 一句话总结

本文提出了一种针对手术室视频的细粒度多角色动作识别方法，通过构建首个以动作为中心的基准数据集和一种仅依赖视觉的时序模型，显著提升了在复杂遮挡和有限视角下的动作理解能力，并引入多视角到单视角的特征对齐技术，减少了对多摄像头数据的依赖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13104

arXiv 提交日期: 2026-06-11

llm benchmark model evaluation citation bias hallucination epistemic susceptibility authority signals multi-domain

权威、真相与引用偏见：一个用于研究大型语言模型认知易感性的多领域大规模基准测试 / Authority, Truth, and Citation Bias: A Large-Scale Multi-Domain Benchmark for Studying Epistemic Susceptibility in Large Language Models

1️⃣ 一句话总结

这篇论文创建了一个包含22万多个提示的大规模基准测试，通过严格控制的实验发现，大型语言模型在回答问题时，只要看到“引用”存在（无论引用是否真实），其产生错误信息的概率都会显著增加，甚至高达77%，其中虚假引用搭配真实信息的影响最大，而引用的来源高低或作者背景则几乎没有影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12344

arXiv 提交日期: 2026-06-10

agents benchmark llm coding agents evaluation swede-bench adapter protocol cost-aware

Claw-SWE-Bench：用于评估类OpenClaw智能体框架在编码任务上的基准测试 / Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

1️⃣ 一句话总结

该论文提出了Claw-SWE-Bench，一个多语言编码任务基准测试，通过统一的评估协议和成本核算，揭示了智能体框架（如OpenClaw）的设计比起底层模型对编码性能影响更大，并提供了标准化的测试集来公平比较不同框架的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11762

arXiv 提交日期: 2026-06-10

llm model evaluation benchmark creativity evaluation semantic entropy multi-agent judge task-agnostic divergent thinking

面向开放任务的语言模型创造力自动化评估 / Automated Creativity Evaluation of Language Models Across Open-Ended Tasks

1️⃣ 一句话总结

本文提出了一种不依赖特定任务的通用自动化框架，通过语义熵评估语言模型的发散性创造力（新颖性和多样性），并利用基于检索的多智能体评审系统衡量聚合性创造力（任务完成度），在三个不同领域验证了其有效性和可扩展性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09428

arXiv 提交日期: 2026-06-08

agents multi-modal benchmark crisis communication vision-language models evacuation simulation communication strategy environment representation

引导我出去：一个用于评估危机场景中视觉语言模型操作员沟通能力的基准框架 / Guide Me Out: A Framework to Benchmark VLM Operators Communication in Crisis Scenarios

1️⃣ 一句话总结

该论文提出了一个评估视觉语言模型（VLM）在模拟疏散中引导平民的基准框架，发现定向通讯比广播更有效，视觉信息比附加地图更有助于提升引导效果，而移动威胁则显著增加了任务失败率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09450

arXiv 提交日期: 2026-06-08

llm machine learning benchmark theorem proving formal mathematics lean4 evaluation proof structure

定理基准：评估大语言模型在形式化数学定理证明中的表现 / TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics

1️⃣ 一句话总结

本文提出了一个名为TheoremBench的Lean4形式化数学基准测试，通过包含经典定理及其子定理的结构化任务，更细致地评估大语言模型的定理证明能力，并揭示了现有模型偏向于解决简单子问题、依赖冗长策略而非高效证明计划的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.08959

arXiv 提交日期: 2026-06-08

multi-modal benchmark machine learning visual question answering cultural reasoning heritage understanding bilingual vqa vision-language models

ChinaHeritaQA：面向中国世界遗产的文化视觉问答数据集 / ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

1️⃣ 一句话总结

该论文构建了一个包含中国世界遗产图像和双语问答对的多模态基准数据集，评估了视觉语言模型在文化推理上的能力，发现现有模型虽擅长视觉识别，但在理解历史、朝代等深层文化知识方面仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05702

arXiv 提交日期: 2026-06-04

multi-modal benchmark vision-language models chronological reasoning shortcut bias evaluation

看见时间：视觉语言模型中的时间顺序推理与捷径偏误基准测试 / Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

1️⃣ 一句话总结

该论文构建了一套专门用于评估视觉语言模型时间顺序推理能力的新基准，通过多组不同难度的图像数据集和跨模态匹配任务，发现模型常常依赖颜色等表面线索而非真正的时间逻辑来作出判断，揭示了当前模型在理解图像先后顺序上存在的严重局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06242

arXiv 提交日期: 2026-06-04

machine learning benchmark document analysis layout detection data snapshot extraction institutional documents figure and table extraction evaluation framework

面向机构文档数据快照提取的开源布局检测模型基准测试 / Benchmarking Open-Source Layout Detection Models for Data Snapshot Extraction from Institutional Documents

1️⃣ 一句话总结

本文构建了一个包含人道主义报告和世界银行政策文件等机构文档的基准数据集，系统评估了多个开源布局检测模型在提取图中和表中可复用分析信息（即“数据快照”）方面的表现，发现这些模型在常规学术文档中表现良好，但在实际机构文档中容易混淆分析性内容与非分析性内容、拆分复合图表以及遗漏必要的上下文信息，揭示了通用文档布局分析与实用数据提取之间的显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05818

arXiv 提交日期: 2026-06-04

llm benchmark machine learning math reasoning evaluation dataset question answering

莱比锡基准测试 / Benchmarks in Leipzig

1️⃣ 一句话总结

本文介绍了一个由49位数学家合作创建的高难度数学问答数据集，包含100个研究级问题，并通过三轮逐步加强的测试（从单次尝试到深度思考模型多次尝试）评估了最先进的大语言模型，结果显示模型能力惊人，最终仅剩2个问题未被解决。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13332

1️⃣ 一句话总结

arXiv ID: 2606.13104

1️⃣ 一句话总结

arXiv ID: 2606.12344

1️⃣ 一句话总结

arXiv ID: 2606.11762

1️⃣ 一句话总结

arXiv ID: 2606.09428

1️⃣ 一句话总结

arXiv ID: 2606.09450

1️⃣ 一句话总结

arXiv ID: 2606.08959

1️⃣ 一句话总结

arXiv ID: 2606.05702

1️⃣ 一句话总结

arXiv ID: 2606.06242

1️⃣ 一句话总结

arXiv ID: 2606.05818

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13332 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11762 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09428 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09450 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.08959 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06242 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05818 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13332

arXiv ID: 2606.13104

arXiv ID: 2606.12344

arXiv ID: 2606.11762

arXiv ID: 2606.09428

arXiv ID: 2606.09450

arXiv ID: 2606.08959

arXiv ID: 2606.05702

arXiv ID: 2606.06242

arXiv ID: 2606.05818