arXiv最新AI论文速览速学

🔍

benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning 03-18

arXiv ID: 2602.09309

arXiv 提交日期: 2026-02-10

machine learning model evaluation benchmark graph generative models materials science extrapolation nanoparticle structures scaling behavior

你能长多大？描绘用于材料科学的图生成模型的外推边界 / How Far Can You Grow? Characterizing the Extrapolation Frontier of Graph Generative Models for Materials Science

1️⃣ 一句话总结

这篇论文首次系统性地揭示了用于生成晶体材料的AI模型存在一个“外推边界”，即当生成的纳米粒子尺寸超过其训练范围时，模型性能会显著下降，并提出了一个名为RADII的基准测试来诊断和预测不同模型的这一失效边界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09516

arXiv 提交日期: 2026-02-10

natural language processing llm benchmark fact-checking multilingual retrieval verification pipeline disinformation

CLEF-2026 CheckThat! 实验室：推进多语言事实核查 / The CLEF-2026 CheckThat! Lab: Advancing Multilingual Fact-Checking

1️⃣ 一句话总结

这篇论文介绍了CLEF-2026 CheckThat!实验室，它通过设计三个核心任务（科学网络声明的来源检索、数值与时间声明的推理核查、以及完整事实核查文章的生成），旨在推动应对多语言和多平台在线虚假信息的技术发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10092

arXiv 提交日期: 2026-02-10

llm model evaluation benchmark quantum computing reasoning evaluation knowledge assessment false premise detection expert benchmarking

量子审计：评估大语言模型在量子计算上的推理能力极限 / Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing

1️⃣ 一句话总结

这篇论文通过创建一个名为Quantum-Audit、包含2700个问题的全新基准测试，系统性地评估了26个大语言模型对量子计算概念的理解能力，发现顶尖模型虽然在整体上能超越人类专家平均水平，但在专家编写的题目、高级主题以及识别错误前提的批判性推理任务上表现明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09724

arXiv 提交日期: 2026-02-10

natural language processing data benchmark multilingual corpus translation history text canonicalization biblical texts metadata annotation

Targum——一个多语言新约翻译语料库 / Targum -- A Multilingual New Testament Translation Corpus

1️⃣ 一句话总结

这篇论文构建了一个包含657个新约译本的多语言语料库，通过精细的元数据标注，首次为研究者提供了可按需进行微观（如译本家族）或宏观（去重后）分析的灵活工具，为翻译历史的定量研究设立了新标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08346

arXiv 提交日期: 2026-02-09

multi-modal model evaluation benchmark process reward models vision language models visual reasoning reasoning trajectories evaluation benchmark

揭示什么、是否以及如何？为图像推理思维构建过程奖励模型 / What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

1️⃣ 一句话总结

这篇论文针对大型视觉语言模型在‘图像思维’推理中容易出错的问题，首次创建了一个专门的评估基准，揭示了现有模型难以准确评判推理过程，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09163

arXiv 提交日期: 2026-02-09

llm agents benchmark ontology curation scientific knowledge bases retrieval-augmented reasoning multi-agent systems evaluation benchmark

FlyAOC：评估果蝇科学知识库的智能体本体论构建 / FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases

1️⃣ 一句话总结

这篇论文提出了一个名为FlyBench的新基准测试，用于评估AI智能体如何像专家一样，从海量科学文献中自动搜索、阅读并整理出关于果蝇基因的结构化知识，发现多智能体架构表现更好，但仍远未达到专家水平，为未来AI辅助科学研究指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09012

arXiv 提交日期: 2026-02-09

agents benchmark systems captcha security gui agents cognitive gap evaluation framework

下一代验证码：利用认知鸿沟构建可扩展且多样化的图形界面智能体防御 / Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense

1️⃣ 一句话总结

这篇论文提出了一种新的验证码防御框架，它通过设计需要人类直觉而非精确规划的动态交互任务，利用人与AI在认知上的根本差异，来有效区分真实用户和高级智能体，从而为网络提供可大规模扩展的安全防护。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08131

arXiv 提交日期: 2026-02-08

computer vision data benchmark agricultural mapping field boundary extraction satellite imagery segmentation crop classification

世界农田：一套用于提取农田边界的实用指南与工具集 / Fields of The World: A Field Guide for Extracting Agricultural Field Boundaries

1️⃣ 一句话总结

这篇论文介绍了一个名为‘世界农田’的生态系统，它提供了一个包含全球160万块农田样本的数据集、预训练模型和便捷工具，帮助研究者和从业者高效、准确地从卫星图像中识别农田边界并进行作物分类，从而支持农业监测与决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07909

arXiv 提交日期: 2026-02-08

llm model evaluation benchmark efficient evaluation sparse optimization anchor selection gradient descent performance estimation

SparseEval：通过稀疏优化高效评估大语言模型 / SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为SparseEval的新方法，通过将大语言模型评估问题转化为一个稀疏优化问题，并利用梯度下降和迭代策略来智能选取少量代表性测试样本，从而在保证评估准确性的同时，大幅降低了评估所需的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08025

arXiv 提交日期: 2026-02-08

benchmark computer vision agents world models memory consistency action control video generation evaluation framework

MIND：世界模型中记忆一致性与行动控制的基准测试 / MIND: Benchmarking Memory Consistency and Action Control in World Models

1️⃣ 一句话总结

这篇论文提出了一个名为MIND的新基准测试，专门用于评估世界模型在理解和预测动态视觉环境时，能否保持长期记忆的一致性以及能否在不同行动指令下进行有效控制，从而揭示了当前模型的不足并推动了该领域的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.09309

1️⃣ 一句话总结

arXiv ID: 2602.09516

1️⃣ 一句话总结

arXiv ID: 2602.10092

1️⃣ 一句话总结

arXiv ID: 2602.09724

1️⃣ 一句话总结

arXiv ID: 2602.08346

1️⃣ 一句话总结

arXiv ID: 2602.09163

1️⃣ 一句话总结

arXiv ID: 2602.09012

1️⃣ 一句话总结

arXiv ID: 2602.08131

1️⃣ 一句话总结

arXiv ID: 2602.07909

1️⃣ 一句话总结

arXiv ID: 2602.08025

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.09309 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10092 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09012 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08131 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08025 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.09309

arXiv ID: 2602.09516

arXiv ID: 2602.10092

arXiv ID: 2602.09724

arXiv ID: 2602.08346

arXiv ID: 2602.09163

arXiv ID: 2602.09012

arXiv ID: 2602.08131

arXiv ID: 2602.07909

arXiv ID: 2602.08025