arXiv最新AI论文速览速学

🔍

标签: #evaluation benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 06-18

arXiv ID: 2606.19157

arXiv 提交日期: 2026-06-17

audio benchmark natural language processing audio llms context utilisation indic languages speech recognition evaluation benchmark

IndicContextEval：评估音频大语言模型在8种印度语言中上下文利用能力的基准测试 / IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

1️⃣ 一句话总结

为了检验音频大语言模型是否真正利用文本提示中的上下文（如领域或实体列表）来提升语音识别效果，而非仅依赖模型自身记忆，作者构建了一个涵盖8种印度语言、555位发言人和23个专业领域的56小时多语言基准测试，并设计了7级渐进式提示框架，结果发现不同模型在利用上下文的能力上存在显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.01945

arXiv 提交日期: 2026-05-03

biology benchmark machine learning proteomics mass spectrometry peptide prediction sequence leakage evaluation benchmark

PepSpecBench：用于肽串联质谱预测的统一评估基准 / PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Prediction

1️⃣ 一句话总结

本文提出PepSpecBench，一个标准化的评估基准，通过统一数据处理、防止数据泄露和引入跨物种测试，来公平比较和揭示现有肽段质谱预测模型的真实性能与局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10990

arXiv 提交日期: 2026-04-13

natural language processing model evaluation benchmark scientific claim verification compositional reasoning evaluation benchmark model shortcuts closed-world assumption

当验证失败时：组合上不可行的主张如何逃脱被拒绝的命运 / When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

1️⃣ 一句话总结

这篇论文发现，现有的科学主张验证模型存在一个普遍缺陷：它们只关注最显眼的证据，而忽略了组合性证据的整体验证，导致许多看似合理但实际矛盾的主张被错误接受。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05623

arXiv 提交日期: 2026-04-07

multi-modal benchmark model evaluation hallucination detection image captioning localization multimodal llms evaluation benchmark

DetailVerifyBench：长图像描述中密集幻觉定位的基准 / DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions

1️⃣ 一句话总结

这篇论文提出了一个名为DetailVerifyBench的新基准测试，专门用于评估AI模型在长达数百字的详细图像描述中，精准找出并定位具体错误词语或片段的能力，以解决当前多模态大模型生成长描述时内容不可靠的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01554

arXiv 提交日期: 2026-04-02

benchmark systems model evaluation binary function similarity software security vulnerability analysis generalization gap evaluation benchmark

EXHIB：一个用于在真实复杂场景下评估函数相似性的现实且多样化的基准 / EXHIB: A Benchmark for Realistic and Diverse Evaluation of Function Similarity in the Wild

1️⃣ 一句话总结

这篇论文提出了一个名为EXHIB的新基准，它通过五个真实数据集全面评估二进制函数相似性检测模型，发现现有模型在面对现实世界软件的多样性时性能会大幅下降，揭示了当前评估方法的重大缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00799

arXiv 提交日期: 2026-04-01

multi-modal model evaluation computer vision spatial reasoning 3d consistency multimodal llms evaluation benchmark visual understanding

多模态大语言模型无法识别空间不一致性 / Multimodal Language Models Cannot Spot Spatial Inconsistencies

1️⃣ 一句话总结

这篇论文通过一项新任务发现，当前先进的多模态大语言模型在识别同一场景不同视角下物体运动的空间不一致性时，表现远不如人类，揭示了模型对三维几何结构的理解仍然脆弱且不完整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23750

arXiv 提交日期: 2026-03-24

llm benchmark natural language processing islamic knowledge evaluation benchmark multiple-choice questions madhab bias multilingual evaluation

IslamicMMLU：评估大语言模型伊斯兰知识能力的基准 / IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge

1️⃣ 一句话总结

这篇论文提出了一个名为IslamicMMLU的综合性基准测试，包含超过一万道选择题，用于评估大语言模型在《古兰经》、圣训和伊斯兰法学等核心领域的知识水平，并发现不同模型的表现差异巨大，其中法学部分还能检测出模型对特定学派的偏好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17104

arXiv 提交日期: 2026-03-17

agents benchmark model evaluation coding agents faithfulness long-horizon tasks specification tracking evaluation benchmark

当规范逐步浮现时：评估长周期编码智能体的忠实度损失 / When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents

1️⃣ 一句话总结

这篇论文创建了一个新的测试标准，用来衡量AI编程助手在长期、复杂的编程任务中，当项目需求是逐步给出而非一次性告知时，其最终代码实现与原始设计意图的偏离程度，并发现这种‘逐步告知’的方式会显著降低代码质量，同时提出了一个名为ProjectGuard的解决方案来有效缓解这个问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15352

arXiv 提交日期: 2026-03-16

audio benchmark model evaluation text-to-speech nonverbal vocalization evaluation benchmark paralinguistic speech synthesis

NV-Bench：用于富有表现力的文本转语音生成的非语言发声合成基准 / NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation

1️⃣ 一句话总结

这篇论文提出了首个用于评估文本转语音系统中非语言发声（如笑声、叹息）合成质量的标准化基准NV-Bench，它通过一个包含多语言真实语音的数据集和一套兼顾控制准确性与声音真实性的双维度评测方法，为相关研究提供了可靠的评估工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16944

arXiv 提交日期: 2026-03-16

computer vision model evaluation benchmark instruction-based image editing evaluation benchmark semantic scale human annotation model consistency

Omni IIE Bench：评估图像编辑模型的实际能力基准 / Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models

1️⃣ 一句话总结

这篇论文提出了一个名为Omni IIE Bench的新基准测试，专门用于诊断指令式图像编辑模型在不同语义复杂度任务中的表现一致性，发现几乎所有主流模型在处理高语义复杂度任务时性能都会显著下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19157

1️⃣ 一句话总结

arXiv ID: 2605.01945

1️⃣ 一句话总结

arXiv ID: 2604.10990

1️⃣ 一句话总结

arXiv ID: 2604.05623

1️⃣ 一句话总结

arXiv ID: 2604.01554

1️⃣ 一句话总结

arXiv ID: 2604.00799

1️⃣ 一句话总结

arXiv ID: 2603.23750

1️⃣ 一句话总结

arXiv ID: 2603.17104

1️⃣ 一句话总结

arXiv ID: 2603.15352

1️⃣ 一句话总结

arXiv ID: 2603.16944

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.01945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01554 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00799 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23750 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15352 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16944 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19157

arXiv ID: 2605.01945

arXiv ID: 2604.10990

arXiv ID: 2604.05623

arXiv ID: 2604.01554

arXiv ID: 2604.00799

arXiv ID: 2603.23750

arXiv ID: 2603.17104

arXiv ID: 2603.15352

arXiv ID: 2603.16944