arXiv最新AI论文速览速学

🔍

benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Panoramic Affordance Prediction 03-17

arXiv ID: 2603.08683

arXiv 提交日期: 2026-03-09

audio model training benchmark lossless compression language modeling autoregressive models audio codecs byte-level tokenization

全保真音频无损压缩的语言建模基准测试 / Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

1️⃣ 一句话总结

这项研究评估了基于语言模型的无损音频压缩方法，发现它在8位和16位音频上能超越传统压缩格式（如FLAC），并提出了一种名为Trilobyte的新编码方案，首次实现了对24位高保真音频的可行压缩，但压缩效果会随着比特深度的增加而减弱。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08317

arXiv 提交日期: 2026-03-09

computer vision model evaluation benchmark action recognition human-ai comparison egocentric vision spatiotemporal analysis robustness evaluation

在空间与时空操作下人机在以自我为中心动作识别中的差异 / Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

1️⃣ 一句话总结

这项研究发现，在识别视频中的动作时，人类主要依赖关键的手-物交互等语义线索，而AI模型则更依赖上下文和中低层视觉特征，导致在图像被裁剪或时间顺序被打乱时，两者的识别表现和策略存在显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08620

arXiv 提交日期: 2026-03-09

video model evaluation benchmark streaming video understanding temporal reasoning answer readiness video question answering timing-aware evaluation

StreamReady：学习在长流式视频中何时回答以及回答什么 / StreamReady: Learning What to Answer and When in Long Streaming Videos

1️⃣ 一句话总结

这篇论文提出了一个名为StreamReady的新框架，它通过一个轻量级的‘准备就绪’机制，让AI模型在观看长视频流时，不仅能判断内容，还能精准把握回答问题的恰当时机，避免过早猜测或过晚回应，从而在多个视频理解任务上取得了更优表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05167

arXiv 提交日期: 2026-03-05

llm model evaluation benchmark faithfulness evaluation chain-of-thought reasoning assessment judge llm process evaluation

C2-Faith：评估大语言模型作为思维链推理中因果与覆盖忠实性的评判者 / C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为C2-Faith的新基准，用于测试大语言模型能否有效评估思维链推理的忠实性（包括逻辑因果和步骤完整性），结果发现现有模型在不同任务上表现不一，且难以精确定位错误，为如何选用合适的AI评判者提供了实用指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03616

arXiv 提交日期: 2026-03-04

computer vision biology benchmark instance segmentation leaf phenotyping uav imagery fine-grained analysis forestry

LeafInst - 用于细粒度林业叶片表型分析的统一实例分割网络：一个新的基于无人机的基准 / LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

1️⃣ 一句话总结

这篇论文提出了一个名为LeafInst的新型AI模型和一个基于无人机图像的新数据集，专门用于在野外复杂环境中精确识别和分割树木幼苗的细小叶片，以支持林业智能育种。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03618

arXiv 提交日期: 2026-03-04

medical multi-modal benchmark brain tumor typing multimodal fusion missing modalities radiology pathology integration glioma classification

CoRe-BT：一个用于鲁棒脑肿瘤分型的多模态放射学-病理学-文本基准数据集 / CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

1️⃣ 一句话总结

这篇论文提出了一个名为CoRe-BT的多模态医学数据集，它整合了脑部核磁共振影像、病理切片和病理报告，旨在帮助开发即使在部分数据缺失的实际情况中，也能准确进行脑肿瘤分型的鲁棒人工智能模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03683

arXiv 提交日期: 2026-03-04

llm benchmark systems code generation concurrent programming software engineering evaluation deadlock detection

CONCUR：用于评估大语言模型并发代码生成能力的基准 / CONCUR: Benchmarking LLMs for Concurrent Code Generation

1️⃣ 一句话总结

这篇论文提出了一个名为CONCUR的新基准测试，专门用于评估大语言模型生成复杂且易出错的并发代码的能力，填补了现有基准只关注顺序代码的空白。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03657

arXiv 提交日期: 2026-03-04

multi-modal model evaluation benchmark image editing logical reasoning evaluation benchmark multimodal models dynamic processes

InEdit-Bench：用于智能图像编辑模型的中间逻辑路径基准测试 / InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

1️⃣ 一句话总结

这篇论文提出了首个用于评估图像编辑模型在复杂多步骤任务中动态推理能力的基准测试工具InEdit-Bench，发现当前主流模型在此方面存在普遍不足，旨在推动开发更具逻辑理解和推理能力的智能图像生成模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03781

arXiv 提交日期: 2026-03-04

benchmark agents systems long-term memory agent evaluation procedural memory event simulation multi-source integration

LifeBench：一个面向长周期多源记忆的基准测试 / LifeBench: A Benchmark for Long-Horizon Multi-Source Memory

1️⃣ 一句话总结

这篇论文提出了一个名为LifeBench的新基准测试，它通过模拟密集关联的长周期事件来挑战AI智能体，要求其不仅回忆显性知识，还需从多种数字痕迹中推理出习惯性和程序性等非显性记忆，从而更真实地评估智能体在长期、多源记忆整合方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03761

arXiv 提交日期: 2026-03-04

llm agents benchmark agent selection recommendation capability matching evaluation interaction data

AgentSelect：面向叙事性查询的智能体推荐基准 / AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

1️⃣ 一句话总结

这篇论文提出了一个名为AgentSelect的基准测试，旨在解决如何根据用户的具体任务描述（查询）来推荐最合适的AI智能体配置这一核心问题，它整合了海量异构数据并揭示了传统推荐方法在长尾场景下的不足，为智能体生态系统的研究和应用提供了首个统一的数据与评估基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.08683

1️⃣ 一句话总结

arXiv ID: 2603.08317

1️⃣ 一句话总结

arXiv ID: 2603.08620

1️⃣ 一句话总结

arXiv ID: 2603.05167

1️⃣ 一句话总结

arXiv ID: 2603.03616

1️⃣ 一句话总结

arXiv ID: 2603.03618

1️⃣ 一句话总结

arXiv ID: 2603.03683

1️⃣ 一句话总结

arXiv ID: 2603.03657

1️⃣ 一句话总结

arXiv ID: 2603.03781

1️⃣ 一句话总结

arXiv ID: 2603.03761

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.08683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08620 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05167 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03616 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03761 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.08683

arXiv ID: 2603.08317

arXiv ID: 2603.08620

arXiv ID: 2603.05167

arXiv ID: 2603.03616

arXiv ID: 2603.03618

arXiv ID: 2603.03683

arXiv ID: 2603.03657

arXiv ID: 2603.03781

arXiv ID: 2603.03761