arXiv最新AI论文速览速学

🔍

benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 184 72小时内新更新论文 72h更新 239 最新: HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning 03-18

arXiv ID: 2603.01724

arXiv 提交日期: 2026-03-02

llm benchmark natural language processing content moderation evaluation benchmark policy compliance multi-policy violation dynamic guidelines

GMP：一个针对规则共存违规与动态规则下的内容审核基准 / GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

1️⃣ 一句话总结

这篇论文提出了一个名为GMP的新基准，用于测试AI在内容审核中处理‘一条内容同时违反多条规则’和‘审核规则动态变化’这两个现实难题的能力，揭示了当前大语言模型在复杂、动态的真实场景下判断力会下降的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01357

arXiv 提交日期: 2026-03-02

agents benchmark llm tool-use agents personal context multi-step reasoning evaluation benchmark action planning

ASTRA-bench：基于个人用户情境评估工具使用智能体的推理与行动规划能力 / ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context

1️⃣ 一句话总结

这篇论文提出了一个名为ASTRA-bench的新基准测试，它通过结合动态变化的个人生活情境和复杂任务来评估AI助手使用工具、进行推理和制定多步骤计划的能力，结果发现当前最先进的AI模型在处理高复杂性个人情境任务时表现显著下降，揭示了其在现实场景中的关键局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.00883

arXiv 提交日期: 2026-03-01

llm model evaluation benchmark alignment out-of-distribution educational ai model bias downstream performance

有知识而无智慧：衡量大语言模型与预期影响之间的错位 / Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

1️⃣ 一句话总结

这篇研究发现，尽管大语言模型在标准测试上表现出色，但在教育儿童等实际任务中，它们的行为与人类专家的期望存在系统性偏差，甚至可能对学习效果产生负面影响，而这种偏差主要源于模型预训练阶段的共同缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.24238

arXiv 提交日期: 2026-02-27

model evaluation benchmark machine learning time series forecasting foundation models transportation zero-shot evaluation probabilistic forecasting

时间序列基础模型作为交通预测的强大基线：一项大规模基准分析 / Time Series Foundation Models as Strong Baselines in Transportation Forecasting: A Large-Scale Benchmark Analysis

1️⃣ 一句话总结

这篇论文通过大规模基准测试发现，通用时间序列基础模型Chronos-2在未经任何任务特定训练的情况下，就能在多种交通预测任务中达到顶尖或极具竞争力的精度，并能提供有效的不确定性量化，因此可作为交通预测研究的关键基线方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22683

arXiv 提交日期: 2026-02-26

multi-modal benchmark agents vision language models smart glasses visual question answering egocentric vision retrieval-augmented generation

SUPERGLASSES：将视觉语言模型作为智能眼镜智能代理的基准测试 / SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

1️⃣ 一句话总结

这篇论文提出了首个基于真实智能眼镜数据构建的视觉问答基准测试SUPERGLASSES，并设计了一个名为SUPERLENS的新型智能眼镜代理，该代理通过整合目标检测和网络搜索，在回答问题时超越了GPT-4o等现有模型，为解决智能眼镜场景下的特定挑战提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22771

arXiv 提交日期: 2026-02-26

llm medical benchmark clinical decision-making determinability abstention incomplete information safety evaluation

ClinDet-Bench：超越弃权，评估大语言模型在临床决策中的判断可确定性 / ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

1️⃣ 一句话总结

这篇论文提出了一个名为ClinDet-Bench的新评估基准，用于测试大语言模型在信息不全的临床场景中，能否准确判断当前信息是否足以做出可靠决策，结果发现现有模型容易过早下结论或过度弃权，揭示了其在医疗等高风险领域应用的安全性不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22897

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark omni-modal agents tool usage cross-modal reasoning foundation agent evaluation benchmark

OmniGAIA：迈向原生全模态AI助手 / OmniGAIA: Towards Native Omni-Modal AI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OmniGAIA的全模态AI助手评估基准，并开发了一个名为OmniAtlas的原生全模态基础智能体，旨在让AI能像人类一样综合处理视觉、听觉和语言信息，并进行复杂推理和工具调用，以更好地解决现实世界中的复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23286

arXiv 提交日期: 2026-02-26

natural language processing benchmark data question answering table-text reasoning multi-hop reasoning benchmark generation sql-to-text

SPARTA：一种面向文本与表格的、可扩展且原理化的树状多跳问答基准测试 / SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

1️⃣ 一句话总结

这篇论文提出了一个名为SPARTA的自动化框架，它能高效生成大规模、高质量的跨文本和表格的多跳复杂问答数据集，用于更真实地评估模型在需要聚合、分组和深层推理等高级操作上的能力，并揭示了当前先进模型在此类任务上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22638

arXiv 提交日期: 2026-02-26

llm agents benchmark route planning evaluation benchmark real-world mobility tool use api-replay sandbox

MobilityBench：一个用于评估现实世界移动场景中路线规划智能体的基准 / MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为MobilityBench的标准化测试平台，专门用来评估基于大语言模型的路线规划助手在真实世界出行场景中的表现，发现现有模型在满足个性化偏好方面仍有很大提升空间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23166

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark multimodal agents tool use evaluation benchmark long-horizon tasks visual reasoning

AgentVista：在超挑战性真实视觉场景中评估多模态智能体 / AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为AgentVista的新基准测试，用于评估多模态智能体在包含丰富视觉细节和需要长时间、多步骤工具协作的真实复杂任务中的表现，结果发现当前最先进的模型在此类任务上仍存在巨大能力差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.01724

1️⃣ 一句话总结

arXiv ID: 2603.01357

1️⃣ 一句话总结

arXiv ID: 2603.00883

1️⃣ 一句话总结

arXiv ID: 2602.24238

1️⃣ 一句话总结

arXiv ID: 2602.22683

1️⃣ 一句话总结

arXiv ID: 2602.22771

1️⃣ 一句话总结

arXiv ID: 2602.22897

1️⃣ 一句话总结

arXiv ID: 2602.23286

1️⃣ 一句话总结

arXiv ID: 2602.22638

1️⃣ 一句话总结

arXiv ID: 2602.23166

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.01724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01357 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.00883 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.24238 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22771 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22897 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23286 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22638 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23166 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.01724

arXiv ID: 2603.01357

arXiv ID: 2603.00883

arXiv ID: 2602.24238

arXiv ID: 2602.22683

arXiv ID: 2602.22771

arXiv ID: 2602.22897

arXiv ID: 2602.23286

arXiv ID: 2602.22638

arXiv ID: 2602.23166