arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos 03-18

arXiv ID: 2602.21143

arXiv 提交日期: 2026-02-24

llm agents benchmark information synthesis agent evaluation multi-source reasoning tool use hallucination analysis

深度信息合成基准测试 / A Benchmark for Deep Information Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为DEEPSYNTH的新基准测试，用于评估AI智能体在需要从多来源收集、综合信息并进行复杂推理的现实任务中的能力，结果表明当前最先进的模型在此类任务上表现仍然不佳。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20677

arXiv 提交日期: 2026-02-24

systems model training data spatio-temporal foundation models urban computing zero-shot generalization scaling laws benchmark

UrbanFM：扩展城市时空基础模型 / UrbanFM: Scaling Urban Spatio-Temporal Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为UrbanFM的通用城市时空基础模型，它通过构建大规模数据集、设计新的计算单元和简洁的模型架构，解决了现有城市AI模型局限于特定场景的问题，首次实现了在未见过的城市和任务上出色的零样本泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20629

arXiv 提交日期: 2026-02-24

llm model evaluation benchmark automated evaluation mathematical proofs alignment gap human-ai alignment judge bias

QEDBENCH：量化大学水平数学证明自动评估中的对齐差距 / QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs

1️⃣ 一句话总结

这篇论文通过发布一个名为QEDBench的新基准测试，量化了当前主流大语言模型在评估大学高年级数学证明时，其评分与人类专家评分之间存在显著且系统性的偏差，揭示了自动评估在复杂推理任务上的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19583

arXiv 提交日期: 2026-02-23

systems model evaluation benchmark evaluation platform docker machine translation optical character recognition statistical analysis

DEEP：基于Docker的执行与评估平台 / DEEP: Docker-based Execution and Evaluation Platform

1️⃣ 一句话总结

这篇论文提出了一个名为DEEP的自动化平台，它利用Docker容器技术来统一运行和评估不同的人工智能模型（如机器翻译和文字识别），并通过统计分析和可视化工具帮助研究者更直观地比较各模型的性能差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19624

arXiv 提交日期: 2026-02-23

computer vision systems planar tracking homography estimation segmentation tracking re-detection benchmark

基于鲁棒重检测的精确平面跟踪 / Accurate Planar Tracking With Robust Re-Detection

1️⃣ 一句话总结

这篇论文提出了两种新的平面跟踪方法，通过结合先进的图像分割技术和鲁棒的重检测机制，在目标外观变化时也能实现高精度的跟踪，并在主流测试集上取得了目前最好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20048

arXiv 提交日期: 2026-02-23

agents systems model evaluation code intelligence agent navigation dependency graphs retrieval benchmark

CodeCompass：在智能代码助手中解决导航悖论 / CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence

1️⃣ 一句话总结

这篇论文发现，当前智能代码助手在处理大型代码库时，失败的主要原因并非上下文长度限制，而是它们难以像人类一样利用代码结构关系进行导航；作者通过引入一个基于依赖图的结构化导航工具CodeCompass，显著提升了任务完成率，并指出关键在于需要明确引导AI使用这种结构化工具，而非仅仅提供工具本身。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20159

arXiv 提交日期: 2026-02-23

video benchmark model evaluation video reasoning scaling laws evaluation framework spatiotemporal reasoning emergent generalization

一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite

1️⃣ 一句话总结

这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架，首次系统地研究了视频模型的推理能力，并发现了模型在未见任务上出现泛化能力的早期迹象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19502

arXiv 提交日期: 2026-02-23

agents medical benchmark agentic ai clinical prediction multimodal data human-in-the-loop healthcare benchmark

人机协作的智能体AI用于多模态临床预测：来自AgentDS医疗基准测试的经验 / Human-Guided Agentic AI for Multimodal Clinical Prediction: Lessons from the AgentDS Healthcare Benchmark

1️⃣ 一句话总结

这篇论文通过一项医疗AI基准测试发现，在临床预测任务的关键环节引入人类专家的指导，尤其是在多模态数据处理和模型选择方面，能显著提升AI系统的性能，其效果优于完全自动化的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20114

arXiv 提交日期: 2026-02-23

computer vision model training model evaluation machine unlearning vision transformers benchmark memorization forgetting quality

视觉Transformer的遗忘能力基准测试 / Benchmarking Unlearning for Vision Transformers

1️⃣ 一句话总结

这篇论文首次为视觉Transformer建立了机器遗忘能力的基准测试框架，通过系统评估不同算法在不同模型和数据上的表现，揭示了视觉Transformer的记忆特性，并为未来开发更安全、公平的AI提供了可复现的评估基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19432

arXiv 提交日期: 2026-02-23

computer vision model evaluation benchmark visual counting fine-grained counting multimodal prompts discriminative query refinement exclusion learning

CountEx：通过范例与排除实现细粒度计数 / CountEx: Fine-Grained Counting via Exemplars and Exclusion

1️⃣ 一句话总结

这篇论文提出了一个名为CountEx的新型视觉计数框架，它允许用户同时指定‘要数什么’和‘忽略什么’，从而在复杂场景中更准确地计数相似物体，并创建了一个新基准来验证其优越性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21143

1️⃣ 一句话总结

arXiv ID: 2602.20677

1️⃣ 一句话总结

arXiv ID: 2602.20629

1️⃣ 一句话总结

arXiv ID: 2602.19583

1️⃣ 一句话总结

arXiv ID: 2602.19624

1️⃣ 一句话总结

arXiv ID: 2602.20048

1️⃣ 一句话总结

arXiv ID: 2602.20159

1️⃣ 一句话总结

arXiv ID: 2602.19502

1️⃣ 一句话总结

arXiv ID: 2602.20114

1️⃣ 一句话总结

arXiv ID: 2602.19432

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20677 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20629 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19583 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19624 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19502 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19432 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21143

arXiv ID: 2602.20677

arXiv ID: 2602.20629

arXiv ID: 2602.19583

arXiv ID: 2602.19624

arXiv ID: 2602.20048

arXiv ID: 2602.20159

arXiv ID: 2602.19502

arXiv ID: 2602.20114

arXiv ID: 2602.19432