arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Agentic AI for Remote Sensing: Technical Challenges and Research Directions 05-02

arXiv ID: 2604.21192

arXiv 提交日期: 2026-04-23

robotics agents model evaluation vision-language-action models benchmark safety reproducibility long-horizon tasks

视觉-语言-动作模型在开放世界环境中的真实表现 / How VLAs (Really) Work In Open-World Environments

1️⃣ 一句话总结

本文指出当前评估视觉-语言-动作模型（VLAs）在家庭任务中的表现时，仅关注最终成功率的做法会忽略操作过程中的安全隐患和性能夸大问题，并提出了更注重鲁棒性、一致性和安全违规的评估方法，以更真实地反映模型在复杂开放场景中的实际能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20545

arXiv 提交日期: 2026-04-22

llm machine learning systems evaluation sociotechnical systems values benchmark pluralism

测量机器：将生成式AI评估为多元社会技术系统 / Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechical Systems

1️⃣ 一句话总结

本文提出生成式AI不能仅靠静态基准测试来评估，而应视为一个由模型、用户和社会制度共同塑造的多元社会技术系统，并为此开发了“机器-社会-人类循环”（MaSH Loops）框架，通过案例展示价值观如何在交互中被动态构建和评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20736

arXiv 提交日期: 2026-04-22

machine learning graph benchmark semi-supervised node classification label propagation heterophily local clustering coefficient training-free

F²LP-AP：基于自适应传播核的快速灵活标签传播方法 / F\textsuperscript{2}LP-AP: Fast \& Flexible Label Propagation with Adaptive Propagation Kernel

1️⃣ 一句话总结

本文提出了一种无需训练的图节点分类方法F²LP-AP，它通过几何中位数构建鲁棒的类原型，并利用局部聚类系数动态调整传播参数，从而既能高效处理同质性图，也能灵活适应异质性图，在保持极低计算成本的同时达到了与复杂图神经网络相当的分类精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20719

arXiv 提交日期: 2026-04-22

multi-modal benchmark music intelligence omnimodal notation processing evaluation western bias

ONOTE：面向专家级音乐智能的全模态符号处理基准测试 / ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

1️⃣ 一句话总结

本文提出了一个名为ONOTE的全新基准测试，它通过一种基于音高投影的确定性评估方法，客观衡量AI系统在处理音乐符号（包括听觉、视觉和符号三种模态）时的真实理解能力，并揭示了当前顶尖多模态模型在感知准确性与深层音乐逻辑之间存在的严重脱节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20749

arXiv 提交日期: 2026-04-22

llm multi-modal natural language processing conversational recommendation preference reasoning scene understanding bayesian inference benchmark

在哪里和推荐什么：情境化对话推荐中的动态隐含偏好推理 / Where and What: Reasoning Dynamic and Implicit Preferences in Situated Conversational Recommendation

1️⃣ 一句话总结

本文提出了一种名为SiPeR的新框架，在基于场景的对话推荐中，通过判断当前环境是否满足用户需求（“在哪里”），并结合大模型推理用户对候选物品的潜在偏好（“推荐什么”），从而更准确地把握推荐时机和内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20190

arXiv 提交日期: 2026-04-22

machine learning benchmark computer vision vqa wildfire monitoring thermal imaging rgb-thermal fusion multimodal reasoning

野火VQA：面向空中野火监测的大规模辐射热视觉问答基准 / WildFireVQA: A Large-Scale Radiometric Thermal VQA Benchmark for Aerial Wildfire Monitoring

1️⃣ 一句话总结

本文提出了一个名为WildFireVQA的大规模视觉问答基准数据集，通过结合RGB图像和精准辐射热成像数据，专门用于评估AI模型在空中野火监测中的多模态推理能力，实验发现现有模型主要依赖RGB信息，辐射热数据虽然能提升性能但尚未被充分利用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20658

arXiv 提交日期: 2026-04-22

llm agents theory multi-agent cooperative behavior behavioral economics scientific reasoning benchmark

合作特征预测多智能体大语言模型团队在科学工作流中的表现 / Cooperative Profiles Predict Multi-Agent LLM Team Performance in AI for Science Workflows

1️⃣ 一句话总结

本文通过让35种开源大语言模型参与六个行为经济学游戏，发现它们在游戏中的合作特征能有效预测这些模型在科学协作任务中的团队表现，即更善于合作、注重团队产出的模型能产出更准确、高质量和完整的科学报告，这为快速筛选适合团队协作的AI模型提供了低成本方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20319

arXiv 提交日期: 2026-04-22

medical multi-modal benchmark surgical video spatiotemporal reasoning chain-of-thought evaluation multi-modal llm

SurgCoT：通过思维链基准推动手术视频中的时空推理 / SurgCoT: Advancing Spatiotemporal Reasoning in Surgical Videos through a Chain-of-Thought Benchmark

1️⃣ 一句话总结

该论文提出了SurgCoT，一个专门用于评估多模态大语言模型在手术视频中进行时空推理能力的基准数据集，通过结构化思维链框架和精细标注，揭示了当前模型在因果推理、动作对齐等关键维度上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20006

arXiv 提交日期: 2026-04-21

llm agents benchmark long-term memory personalized agents forgetting-aware metric memory consolidation evaluation

从回忆到遗忘：为个性化智能体评测长期记忆能力 / From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents

1️⃣ 一句话总结

这篇论文提出了一个名为Memora的长期记忆评测基准，通过记忆、推理和推荐三类任务，以及一个惩罚使用过时信息的新指标FAMA，揭示了当前大语言模型和记忆智能体在持续对话中难以更新和遗忘无效记忆的严重缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19098

arXiv 提交日期: 2026-04-21

natural language processing benchmark financial arabic financial nlp shari'ah reasoning instruction tuning

SAHM：一个面向阿拉伯语金融及伊斯兰教法合规推理的基准数据集 / SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning

1️⃣ 一句话总结

该论文构建了首个针对阿拉伯语金融和伊斯兰教法合规推理的多任务基准数据集SAHM，包含1.4万条经专家验证的样本，并测试了19个大型语言模型，发现模型虽擅长候选识别，但在生成和因果推理任务上表现薄弱，尤其在事件因果推理方面差距最大。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21192

1️⃣ 一句话总结

arXiv ID: 2604.20545

1️⃣ 一句话总结

arXiv ID: 2604.20736

1️⃣ 一句话总结

arXiv ID: 2604.20719

1️⃣ 一句话总结

arXiv ID: 2604.20749

1️⃣ 一句话总结

arXiv ID: 2604.20190

1️⃣ 一句话总结

arXiv ID: 2604.20658

1️⃣ 一句话总结

arXiv ID: 2604.20319

1️⃣ 一句话总结

arXiv ID: 2604.20006

1️⃣ 一句话总结

arXiv ID: 2604.19098

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21192 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20545 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20736 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20719 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20749 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20190 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20319 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20006 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19098 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21192

arXiv ID: 2604.20545

arXiv ID: 2604.20736

arXiv ID: 2604.20719

arXiv ID: 2604.20749

arXiv ID: 2604.20190

arXiv ID: 2604.20658

arXiv ID: 2604.20319

arXiv ID: 2604.20006

arXiv ID: 2604.19098