arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: VorTEX: Various overlap ratio for Target speech EXtraction 03-18

arXiv ID: 2511.02687

arXiv 提交日期: 2025-11-04

agents benchmark model evaluation multi-agent collaboration benchmark design partial observability heterogeneous agents relay inference

协作鸿沟 / The Collaboration Gap

1️⃣ 一句话总结

这篇论文通过一个迷宫求解实验发现，即使单个AI模型表现优秀，它们在相互协作时性能也会显著下降，揭示了AI系统间存在的‘协作鸿沟’，并提出了由强模型主导的‘接力推理’方法来改善协作效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02650

arXiv 提交日期: 2025-11-04

multi-modal model evaluation benchmark visual token compression multimodal efficiency pruning algorithms inference optimization vision-language models

视觉输入能否被压缩？面向大型多模态模型的视觉令牌压缩基准 / Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一个名为UniPruneBench的统一基准测试平台，用于系统评估大型多模态模型中视觉令牌压缩方法的性能，发现随机剪枝是一个意外强大的基线方法，且压缩比例是影响模型性能的主要因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02366

arXiv 提交日期: 2025-11-04

llm benchmark model evaluation ai safety chinese context dynamic benchmark safety evaluation multidimensional assessment

LiveSecBench：面向中文语境大语言模型的动态与文化相关AI安全基准 / LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

1️⃣ 一句话总结

这篇论文提出了一个专门针对中文应用场景的动态AI安全评测基准，从法律、伦理、事实性等六个维度评估大模型，并通过定期更新来应对新兴安全威胁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02347

arXiv 提交日期: 2025-11-04

llm benchmark model evaluation spatial reasoning visual evaluation language-spatial mapping diagnostic analysis drawing generation

LTD-Bench：通过让大语言模型绘画来评估它们 / LTD-Bench: Evaluating Large Language Models by Letting Them Draw

1️⃣ 一句话总结

这篇论文提出了一个名为LTD-Bench的创新评估基准，通过让大语言模型生成绘画来直观揭示它们在空间推理能力上的严重缺陷，弥补了传统数值评估方法的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02309

arXiv 提交日期: 2025-11-04

llm model evaluation theory reasoning test-time scaling sequential refinement voting methods inference optimization

顺序优势：在同等计算量下，逆熵投票优于并行自一致性方法 / The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

1️⃣ 一句话总结

这项研究发现，在相同计算资源下，让语言模型通过顺序迭代改进答案的方法，比同时运行多个独立推理链的并行方法更有效，并通过一种新的逆熵加权投票技术进一步提升了准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02243

arXiv 提交日期: 2025-11-04

multi-modal model evaluation natural language processing modality conflict reasoning uncertainty preference dynamics multimodal llms entropy analysis

当模态冲突时：单模态推理不确定性如何控制多模态大语言模型的偏好动态 / When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

1️⃣ 一句话总结

这篇论文揭示了多模态大模型在处理视觉和文本信息冲突时，其决策主要受两个因素控制：模型对每种信息可靠性的实时判断差异，以及模型自身对某种信息类型的固有偏好，从而解释了模型在矛盾信息面前如何做出选择。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01857

arXiv 提交日期: 2025-11-03

systems data model evaluation dense retrieval toolkit data management evaluation pipeline hard negative mining

Trove：一个灵活的密集检索工具包 / Trove: A Flexible Toolkit for Dense Retrieval

1️⃣ 一句话总结

这篇论文介绍了一个名为Trove的开源工具包，它通过高效的数据管理和高度可定制化的设计，让用户能够轻松进行密集检索实验，同时显著降低内存消耗并提升处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01846

arXiv 提交日期: 2025-11-03

llm benchmark model evaluation mathematical reasoning automated grading proof evaluation olympiad problems long-form answers

迈向稳健的数学推理 / Towards Robust Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准，旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力，并展示了其模型在此基准上的优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01775

arXiv 提交日期: 2025-11-03

medical video generation model evaluation surgical video generation expert assessment medical ai plausibility evaluation zero-shot prediction

外科医生离手术世界模型还有多远？关于零样本手术视频生成与专家评估的初步研究 / How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

1️⃣ 一句话总结

这项研究通过专家评估发现，先进的视频生成模型虽然能生成视觉上逼真的手术视频，但在理解手术器械操作、环境反馈和手术意图等深层因果逻辑方面存在显著不足，揭示了AI在专业医疗领域模拟真实世界能力的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01706

arXiv 提交日期: 2025-11-03

llm natural language processing model evaluation knowledge interaction subspace disentanglement natural language explanations parametric knowledge context knowledge

基于秩-2子空间解缠的多步骤知识交互分析 / Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

1️⃣ 一句话总结

这篇论文提出了一种新的秩-2子空间解缠方法，首次实现了对大语言模型生成多步解释时内部参数知识与外部上下文知识交互的系统分析，发现幻觉解释偏向参数知识，而忠实解释则平衡两种知识。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.02687

1️⃣ 一句话总结

arXiv ID: 2511.02650

1️⃣ 一句话总结

arXiv ID: 2511.02366

1️⃣ 一句话总结

arXiv ID: 2511.02347

1️⃣ 一句话总结

arXiv ID: 2511.02309

1️⃣ 一句话总结

arXiv ID: 2511.02243

1️⃣ 一句话总结

arXiv ID: 2511.01857

1️⃣ 一句话总结

arXiv ID: 2511.01846

1️⃣ 一句话总结

arXiv ID: 2511.01775

1️⃣ 一句话总结

arXiv ID: 2511.01706

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.02687 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02650 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02366 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02347 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02309 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02243 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01857 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01846 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01706 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.02687

arXiv ID: 2511.02650

arXiv ID: 2511.02366

arXiv ID: 2511.02347

arXiv ID: 2511.02309

arXiv ID: 2511.02243

arXiv ID: 2511.01857

arXiv ID: 2511.01846

arXiv ID: 2511.01775

arXiv ID: 2511.01706