arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 121 最新: Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting 05-05

arXiv ID: 2602.09624

arXiv 提交日期: 2026-02-10

llm model evaluation benchmark reference-free evaluation human alignment ensemble methods scoring framework llm assessment

MILE-RefHumEval：一种无需参考答案、多独立大语言模型的人类对齐评估框架 / MILE-RefHumEval: A Reference-Free, Multi-Independent LLM Framework for Human-Aligned Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为MILE-RefHumEval的新评估框架，它通过让多个独立的大语言模型按照一套符合人类偏好的标准进行打分，从而能在没有标准答案的情况下，高效、可靠地评估其他大语言模型在各种任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10210

arXiv 提交日期: 2026-02-10

llm benchmark model evaluation retrieval-augmented generation multi-hop reasoning knowledge graphs evaluation framework benchmark contamination

检索增强模型相比大语言模型增加了多少推理能力？一个面向混合知识多跳推理的基准测试框架 / How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

1️⃣ 一句话总结

这篇论文提出了一个名为HybridRAG-Bench的基准测试框架，它通过自动生成基于最新科学文献混合知识（文本与知识图谱）的复杂推理问题，来有效评估模型是否真正依赖外部检索与多步推理，而非仅仅调用其内部记忆。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09309

arXiv 提交日期: 2026-02-10

machine learning model evaluation benchmark graph generative models materials science extrapolation nanoparticle structures scaling behavior

你能长多大？描绘用于材料科学的图生成模型的外推边界 / How Far Can You Grow? Characterizing the Extrapolation Frontier of Graph Generative Models for Materials Science

1️⃣ 一句话总结

这篇论文首次系统性地揭示了用于生成晶体材料的AI模型存在一个“外推边界”，即当生成的纳米粒子尺寸超过其训练范围时，模型性能会显著下降，并提出了一个名为RADII的基准测试来诊断和预测不同模型的这一失效边界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09552

arXiv 提交日期: 2026-02-10

llm natural language processing model evaluation retrieval-augmented generation conversational qa multi-turn dialogue benchmark empirical study

跨多领域对话式问答的RAG方法综合比较 / Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA

1️⃣ 一句话总结

这篇论文通过系统比较多种检索增强生成（RAG）方法在多轮对话问答中的表现，发现简单有效的检索策略（如重排序、混合BM25和HyDE）通常优于复杂方法，其效果关键取决于方法与数据集特性的匹配，而非方法本身的复杂度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09516

arXiv 提交日期: 2026-02-10

natural language processing llm benchmark fact-checking multilingual retrieval verification pipeline disinformation

CLEF-2026 CheckThat! 实验室：推进多语言事实核查 / The CLEF-2026 CheckThat! Lab: Advancing Multilingual Fact-Checking

1️⃣ 一句话总结

这篇论文介绍了CLEF-2026 CheckThat!实验室，它通过设计三个核心任务（科学网络声明的来源检索、数值与时间声明的推理核查、以及完整事实核查文章的生成），旨在推动应对多语言和多平台在线虚假信息的技术发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10092

arXiv 提交日期: 2026-02-10

llm model evaluation benchmark quantum computing reasoning evaluation knowledge assessment false premise detection expert benchmarking

量子审计：评估大语言模型在量子计算上的推理能力极限 / Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing

1️⃣ 一句话总结

这篇论文通过创建一个名为Quantum-Audit、包含2700个问题的全新基准测试，系统性地评估了26个大语言模型对量子计算概念的理解能力，发现顶尖模型虽然在整体上能超越人类专家平均水平，但在专家编写的题目、高级主题以及识别错误前提的批判性推理任务上表现明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09724

arXiv 提交日期: 2026-02-10

natural language processing data benchmark multilingual corpus translation history text canonicalization biblical texts metadata annotation

Targum——一个多语言新约翻译语料库 / Targum -- A Multilingual New Testament Translation Corpus

1️⃣ 一句话总结

这篇论文构建了一个包含657个新约译本的多语言语料库，通过精细的元数据标注，首次为研究者提供了可按需进行微观（如译本家族）或宏观（去重后）分析的灵活工具，为翻译历史的定量研究设立了新标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08346

arXiv 提交日期: 2026-02-09

multi-modal model evaluation benchmark process reward models vision language models visual reasoning reasoning trajectories evaluation benchmark

揭示什么、是否以及如何？为图像推理思维构建过程奖励模型 / What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

1️⃣ 一句话总结

这篇论文针对大型视觉语言模型在‘图像思维’推理中容易出错的问题，首次创建了一个专门的评估基准，揭示了现有模型难以准确评判推理过程，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09163

arXiv 提交日期: 2026-02-09

llm agents benchmark ontology curation scientific knowledge bases retrieval-augmented reasoning multi-agent systems evaluation benchmark

FlyAOC：评估果蝇科学知识库的智能体本体论构建 / FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases

1️⃣ 一句话总结

这篇论文提出了一个名为FlyBench的新基准测试，用于评估AI智能体如何像专家一样，从海量科学文献中自动搜索、阅读并整理出关于果蝇基因的结构化知识，发现多智能体架构表现更好，但仍远未达到专家水平，为未来AI辅助科学研究指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08682

arXiv 提交日期: 2026-02-09

video generation aigc multi-modal audio-video generation text-to-video&audio animation mmdit architecture benchmark

ALIVE：用逼真的音视频生成技术为你的世界注入活力 / ALIVE: Animate Your World with Lifelike Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ALIVE的生成模型，它通过改进现有视频生成模型，使其能根据文本或参考视频同步生成高质量且音画同步的视频和音频，性能媲美顶尖商业方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.09624

1️⃣ 一句话总结

arXiv ID: 2602.10210

1️⃣ 一句话总结

arXiv ID: 2602.09309

1️⃣ 一句话总结

arXiv ID: 2602.09552

1️⃣ 一句话总结

arXiv ID: 2602.09516

1️⃣ 一句话总结

arXiv ID: 2602.10092

1️⃣ 一句话总结

arXiv ID: 2602.09724

1️⃣ 一句话总结

arXiv ID: 2602.08346

1️⃣ 一句话总结

arXiv ID: 2602.09163

1️⃣ 一句话总结

arXiv ID: 2602.08682

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.09624 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10210 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09309 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10092 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08682 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.09624

arXiv ID: 2602.10210

arXiv ID: 2602.09309

arXiv ID: 2602.09552

arXiv ID: 2602.09516

arXiv ID: 2602.10092

arXiv ID: 2602.09724

arXiv ID: 2602.08346

arXiv ID: 2602.09163

arXiv ID: 2602.08682