arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: xplainfi: Feature Importance and Statistical Inference for Machine Learning in R 03-17

arXiv ID: 2603.12133

arXiv 提交日期: 2026-03-12

llm benchmark model evaluation topological reasoning spatial reasoning chain of thought error analysis puzzle solving

TopoBench：针对大语言模型在复杂拓扑推理任务上的基准测试 / TopoBench: Benchmarking LLMs on Hard Topological Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为TopoBench的基准测试，用于评估大语言模型在解决涉及连通性、环路闭合等复杂空间关系的拓扑谜题时的能力，研究发现当前最先进的模型在难题上表现不佳，其核心瓶颈主要在于从空间表示中提取约束条件，而非对这些约束进行推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11482

arXiv 提交日期: 2026-03-12

audio model evaluation natural language processing speech synthesis preference learning acoustic analysis voice evaluation pairwise ranking

AnimeScore：一个基于偏好的数据集与框架，用于评估动漫风格语音 / AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

1️⃣ 一句话总结

这篇论文提出了一个名为AnimeScore的自动化评估框架，通过收集大量语音偏好对比数据并训练模型，来客观衡量语音的‘动漫感’，解决了以往依赖主观打分且标准不一的问题，并发现动漫感主要源于共振峰控制、韵律连贯和刻意发音等声学特征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11415

arXiv 提交日期: 2026-03-12

llm natural language processing model evaluation abstractive summarization decoding intervention faithfulness training-free bigram promotion

BLooP：利用大语言模型和双词前瞻提升的零样本抽象摘要生成 / BLooP: Zero-Shot Abstractive Summarization using Large Language Models with Bigram Lookahead Promotion

1️⃣ 一句话总结

这篇论文提出了一种名为BLooP的无需训练的简单解码方法，通过引导大语言模型在生成摘要时优先选择原文中出现的双词组合，有效提升了摘要的准确性和信息保真度，同时保持了良好的可读性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12266

arXiv 提交日期: 2026-03-12

multi-modal benchmark model evaluation multimodal reasoning compositional reasoning visual workflows verifiable evaluation mllm benchmarking

MM-CondChain：一个用于视觉基础深度组合推理的、可通过程序验证的基准 / MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MM-CondChain的新基准测试，专门用来评估多模态大语言模型在理解复杂视觉场景后，进行多步骤、有条件分支的深度逻辑推理的能力，结果发现当前最先进的模型在这项任务上仍有很大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11909

arXiv 提交日期: 2026-03-12

machine learning model training model evaluation probabilistic forecasting time series transformer energy-based models multivariate prediction

EnTransformer：用于多元概率预测的深度生成式Transformer模型 / EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

1️⃣ 一句话总结

这篇论文提出了一种名为EnTransformer的新型深度学习模型，它巧妙地将一种名为‘engression’的随机学习范式与强大的Transformer架构相结合，能够更准确地预测多个相互关联的时间序列在未来可能出现的各种情况及其不确定性，在多个公开数据集上的测试表现都优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11403

arXiv 提交日期: 2026-03-12

medical computer vision model evaluation vision transformer histopathology cancer classification interpretability medical imaging

DeepHistoViT：一个用于病理学癌症分类的可解释视觉Transformer框架 / DeepHistoViT: An Interpretable Vision Transformer Framework for Histopathological Cancer Classification

1️⃣ 一句话总结

这篇论文提出了一种名为DeepHistoViT的新型人工智能模型，它利用先进的Transformer技术自动分析病理切片图像，不仅能以极高的准确度识别肺癌、结肠癌和白血病等多种癌症，还能通过可视化技术向医生解释其判断依据，有望成为辅助临床诊断的可靠工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11664

arXiv 提交日期: 2026-03-12

computer vision model evaluation systems backdoor detection zero-shot vision encoders security adversarial robustness

BackdoorIDS：针对预训练视觉编码器的零样本后门检测 / BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder

1️⃣ 一句话总结

这篇论文提出了一种名为BackdoorIDS的零样本检测方法，它通过观察图像在逐步遮盖过程中注意力特征的突变来有效识别预训练视觉编码器中的后门攻击样本，无需重新训练模型即可即插即用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11142

arXiv 提交日期: 2026-03-11

computer vision model evaluation theory mechanistic interpretability vision transformer causal analysis attention mlp

注意力机制收集证据，MLP模块组合概念：对VideoViT中动作-结果回路的因果分析 / Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

1️⃣ 一句话总结

这篇论文通过因果分析方法，揭示了视频分类模型内部存在一个专门处理动作“成功与否”的隐藏回路，其中注意力机制负责收集低层证据，而多层感知机则负责稳健地组合概念，这解释了模型为何能形成超越其训练任务的复杂“隐藏知识”，并凸显了构建可信AI系统时进行机制性监督的重要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10573

arXiv 提交日期: 2026-03-11

theory llm model evaluation in-context learning mechanistic interpretability statistical inference hypothesis testing transformer analysis

Transformer中的隐式统计推断：在上下文中逼近似然比检验 / Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

1️⃣ 一句话总结

这篇论文通过统计决策理论视角研究发现，Transformer模型在上下文学习时，并非简单地匹配相似性，而是能够自适应地构建接近最优统计推断的算法，以解决线性和非线性任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11147

arXiv 提交日期: 2026-03-11

multi-modal systems model evaluation video-language model metadata generation museum archives similarity matching automated cataloging

资源与监管约束下基于馆藏目录的博物馆视频多模态属性归因 / Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

1️⃣ 一句话总结

这篇论文提出了一种基于本地部署视频语言模型的自动化方法，通过多步骤流程为博物馆视频生成与现有馆藏目录关联的描述、标签和作者归属信息，旨在以低成本、合规的方式提升音像档案的可检索性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.12133

1️⃣ 一句话总结

arXiv ID: 2603.11482

1️⃣ 一句话总结

arXiv ID: 2603.11415

1️⃣ 一句话总结

arXiv ID: 2603.12266

1️⃣ 一句话总结

arXiv ID: 2603.11909

1️⃣ 一句话总结

arXiv ID: 2603.11403

1️⃣ 一句话总结

arXiv ID: 2603.11664

1️⃣ 一句话总结

arXiv ID: 2603.11142

1️⃣ 一句话总结

arXiv ID: 2603.10573

1️⃣ 一句话总结

arXiv ID: 2603.11147

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.12133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11482 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11415 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12266 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11403 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11664 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10573 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11147 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.12133

arXiv ID: 2603.11482

arXiv ID: 2603.11415

arXiv ID: 2603.12266

arXiv ID: 2603.11909

arXiv ID: 2603.11403

arXiv ID: 2603.11664

arXiv ID: 2603.11142

arXiv ID: 2603.10573

arXiv ID: 2603.11147