arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Agentic AI for Remote Sensing: Technical Challenges and Research Directions 05-02

arXiv ID: 2604.24665

arXiv 提交日期: 2026-04-27

llm natural language processing benchmark turkish evidentiality source trust morphology human-llm gap

土耳其语中来源敏感推理的基准测试：证据信任操纵下的人类与大型语言模型 / Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation

1️⃣ 一句话总结

本研究通过实验发现，土耳其语母语者会根据信息来源的可信度，在两种过去时态后缀（-DI和-mIs）之间做出不同选择，而大型语言模型（LLM）在这类基于证据信任的推理中表现不稳定，与人类存在明显差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24543

arXiv 提交日期: 2026-04-27

machine learning computer vision multi-modal rgb-t crowd counting cross-modal fusion reliability estimation density estimation benchmark

RACANet：面向RGB-T人群计数的可靠性感知群体锚点网络 / RACANet: Reliability-Aware Crowd Anchor Network for RGB-T Crowd Counting

1️⃣ 一句话总结

本文提出了一种名为RACANet的两阶段融合框架，通过显式学习跨模态语义对齐和基于区域可靠性的局部锚点融合机制，有效提升了RGB-T人群计数在复杂场景下的准确性与可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24762

arXiv 提交日期: 2026-04-27

video computer vision machine learning shot boundary detection transformer benchmark synthetic data video segmentation

全视剪辑：基于镜头查询Transformer的整体关系型镜头边界检测 / OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer

1️⃣ 一句话总结

本文提出了一种名为OmniShotCut的新方法，它利用镜头查询Transformer将视频切分任务转化为对镜头内部和镜头之间关系的整体预测，能够更准确地识别各种镜头切换，并解决现有方法在边界模糊、微小错误和训练数据不足方面的缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24401

arXiv 提交日期: 2026-04-27

audio multi-modal model evaluation benchmark text prior audio reliance evaluation

闪光的不一定是音频：重新审视音频-语言评估中的文本先验与音频依赖 / All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

1️⃣ 一句话总结

该论文指出，当前大型音频-语言模型在许多测试中取得的高分，往往不是因为它们真正理解了音频信号，而是依赖文本或常识就能猜出答案，只有极少数问题才真正需要完整音频，因此现有基准测试并不可靠，作者提出了更严格的评估方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.22036

arXiv 提交日期: 2026-04-23

computer vision medical benchmark egocentric video action detection object detection medical dataset yolo

EgoMAGIC：用于训练感知算法的第一人称视角野外医疗数据集 / EgoMAGIC- An Egocentric Video Field Medicine Dataset for Training Perception Algorithms

1️⃣ 一句话总结

本文介绍了一个名为EgoMAGIC的全新第一人称视角医疗活动视频数据集，包含3355个视频和50种医疗任务，并预训练了YOLO模型以检测医疗物体，为开发增强现实辅助的医疗AI提供了重要基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21375

arXiv 提交日期: 2026-04-23

agents llm gui automation early stopping loop detection verification benchmark

VLAA-GUI：知道何时停止、恢复与搜索——一个模块化的GUI自动化框架 / VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

1️⃣ 一句话总结

本文提出了一种模块化的图形界面自动化框架VLAA-GUI，通过三个核心组件——完整性验证器（防止过早完成任务）、循环中断器（打破重复失败）和按需搜索代理（查询未知流程）——来有效解决智能体在操作过程中容易出现的提前停止和死循环问题，并在多个基准测试中取得了超过人类水平的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21916

arXiv 提交日期: 2026-04-23

llm evaluation benchmark self-play mathematical reasoning problem posing co-evolving difficulty

数学对决：评估大型语言模型既出题又解题的能力 / MathDuels: Evaluating LLMs as Problem Posers and Solvers

1️⃣ 一句话总结

本文提出了一种名为MathDuels的新型评估方法，让大语言模型在对抗性环境中既扮演“出题者”又扮演“解题者”，从而揭示出传统静态测试无法区分的模型能力差异，并且随着更强模型的加入，题目难度会自动提升、避免测试天花板效应。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21911

arXiv 提交日期: 2026-04-23

llm computer vision model evaluation hallucination benchmark preference optimization visual grounding fine-tuning

当提示覆盖视觉：大型视觉语言模型中由提示引发的幻觉 / When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs

1️⃣ 一句话总结

本文研究发现，大型视觉语言模型（LVLM）产生幻觉的主要原因并非视觉处理能力不足，而是过度依赖文本指令中的先验知识，并据此提出了新的评估基准HalluScope和基于偏好优化的微调框架HalluVL-DPO，有效减少了这类幻觉，同时保持了模型其他性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21686

arXiv 提交日期: 2026-04-23

video generation benchmark model evaluation interactive video generation world models standardized evaluation action-mapping control alignment

WorldMark：面向交互式视频世界模型的统一基准套件 / WorldMark: A Unified Benchmark Suite for Interactive Video World Models

1️⃣ 一句话总结

为解决当前交互式视频生成模型（如Genie、YUME等）因各自使用私有场景和轨迹进行评估而无法公平比较的问题，本文推出了首个统一基准WorldMark，它通过标准化的动作映射层、分层次测试用例集和模块化评估工具，使得不同模型能在相同场景和相同动作序列下进行公平比较，并配套了在线竞技平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21396

arXiv 提交日期: 2026-04-23

multi-modal model evaluation data visual reasoning chain-of-thought benchmark grounding large vision-language model

视觉接地思维链：通过基于证据的多步推理实现可信的视觉推理 / VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought

1️⃣ 一句话总结

本文提出了一种名为VG-CoT的全自动方法，能够为每张图片生成一个多步推理链，其中每个推理步骤都精确对应到图片中的具体区域或文字，从而帮助AI模型做出更可信、有据可查的视觉判断，并大幅降低了人工标注成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.24665

1️⃣ 一句话总结

arXiv ID: 2604.24543

1️⃣ 一句话总结

arXiv ID: 2604.24762

1️⃣ 一句话总结

arXiv ID: 2604.24401

1️⃣ 一句话总结

arXiv ID: 2604.22036

1️⃣ 一句话总结

arXiv ID: 2604.21375

1️⃣ 一句话总结

arXiv ID: 2604.21916

1️⃣ 一句话总结

arXiv ID: 2604.21911

1️⃣ 一句话总结

arXiv ID: 2604.21686

1️⃣ 一句话总结

arXiv ID: 2604.21396

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.24665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24543 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24762 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24401 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.22036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21375 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21916 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21911 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21686 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21396 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.24665

arXiv ID: 2604.24543

arXiv ID: 2604.24762

arXiv ID: 2604.24401

arXiv ID: 2604.22036

arXiv ID: 2604.21375

arXiv ID: 2604.21916

arXiv ID: 2604.21911

arXiv ID: 2604.21686

arXiv ID: 2604.21396