arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis 05-02

arXiv ID: 2604.24123

arXiv 提交日期: 2026-04-27

computer vision video model evaluation video quality assessment neural video codecs feature distance generalization subjective evaluation

FDIM：一种面向多种编解码器的基于特征距离的通用视频质量评价指标 / FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs

1️⃣ 一句话总结

本文提出了一种名为FDIM的通用视频质量评价指标，通过结合深度学习提取的多尺度特征和人工设计的补充特征，能够同时准确评估传统视频编码和新兴神经视频编码对标准动态范围与高动态范围视频造成的失真，在多种测试集上表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24170

arXiv 提交日期: 2026-04-27

machine learning model training model evaluation concept bottleneck models uncertainty decomposition epistemic uncertainty aleatoric uncertainty interpretability

用于认知-偶然不确定性分解的置信概念瓶颈模型 / Credal Concept Bottleneck Models for Epistemic-Aleatoric Uncertainty Decomposition

1️⃣ 一句话总结

该论文提出了一种名为CREDENCE的框架，通过在概念瓶颈模型中引入概率区间和多样化预测头，统一分解模型的不确定性来源（可减少的认知不确定性与不可减少的偶然不确定性），从而指导模型在低不确定性时自动决策、高不确定性时转交人工审核或补充数据，显著提升了模型的可解释性和安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24393

arXiv 提交日期: 2026-04-27

machine learning model evaluation linear regions relu networks self-supervised learning representation quality polytope analysis

自监督深度ReLU网络中线性区域的复杂度研究 / Complexity of Linear Regions in Self-supervised Deep ReLU Networks

1️⃣ 一句话总结

本文通过分析自监督深度学习模型（如对比学习和自蒸馏方法）中线性区域的数量、面积、偏心率和边界变化，发现自监督模型比监督模型使用更少的线性区域就能达到相似精度，并且线性区域的几何特征可以作为衡量模型表示质量和检测表示崩溃的可靠指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24401

arXiv 提交日期: 2026-04-27

audio multi-modal model evaluation benchmark text prior audio reliance evaluation

闪光的不一定是音频：重新审视音频-语言评估中的文本先验与音频依赖 / All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

1️⃣ 一句话总结

该论文指出，当前大型音频-语言模型在许多测试中取得的高分，往往不是因为它们真正理解了音频信号，而是依赖文本或常识就能猜出答案，只有极少数问题才真正需要完整音频，因此现有基准测试并不可靠，作者提出了更严格的评估方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.23862

arXiv 提交日期: 2026-04-26

llm machine learning model evaluation transformer architecture memory networks feed-forward network replacement interpretability language modeling

图形记忆Transformer / Graph Memory Transformer (GMT)

1️⃣ 一句话总结

本文提出了一种名为图形记忆Transformer（GMT）的新型语言模型，它用显式的可学习记忆图替代了传统Transformer中的前馈网络层，通过让模型在记忆中心之间“导航”而非进行密集变换，在保持相近零样本性能的同时，显著减少了参数量，并提供了更可解释的内部运作机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.23366

arXiv 提交日期: 2026-04-25

llm agents model evaluation hallucination detection groundedness multi-agent systems replanning factual consistency

GSAR：面向多智能体大语言模型幻觉检测与恢复的带类型依据评分框架 / GSAR: Typed Grounding for Hallucination Detection and Recovery in Multi-Agent LLMs

1️⃣ 一句话总结

本文提出GSAR框架，通过将模型陈述分为四类依据（有据、无据、矛盾、补充），并引入加权评分与三级决策（继续、重生成、重规划）机制，有效检测和修复多智能体大语言模型生成内容中的幻觉问题，在多种独立评估模型上均验证了其稳定性和有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.22640

arXiv 提交日期: 2026-04-24

machine learning model evaluation deep learning mutation testing selective mutation fault detection resistance

面向深度学习的质量驱动选择性变异 / Quality-Driven Selective Mutation for Deep Learning

1️⃣ 一句话总结

本文提出一种基于抗杀性和真实性的双重指标，通过概率框架筛选高质量变异算子配置，从而在减少深度学习模型变异生成成本的同时，保持变异体用于测试优化和模拟真实缺陷的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21549

arXiv 提交日期: 2026-04-23

llm machine learning model evaluation prevalence estimation multicalibration bias correction covariate shift classification

使用多校准大型语言模型进行无偏的流行率估计 / Unbiased Prevalence Estimation with Multicalibrated LLMs

1️⃣ 一句话总结

本文提出，通过多校准技术（确保模型在不同输入特征下均保持校准）而非传统平均校准，可以显著消除在人群特征分布变化时（如跨地区或跨场景）使用大语言模型或分类器进行类别比例估计的系统性偏差，并通过模拟和实际案例验证了这一方法的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21751

arXiv 提交日期: 2026-04-23

llm natural language processing model evaluation cultural bias regional bias dataset supervised fine-tuning evaluation

为什么所有大型语言模型都对日本文化着迷？——论大型语言模型中隐藏的文化与区域偏见 / Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

1️⃣ 一句话总结

该研究通过构建一个基于文化相关问题分类的新数据集，发现大型语言模型在文化回答中存在明显的区域偏好，尤其是对日本表现出异常倾向，并且这种偏见主要出现在监督微调阶段，而非预训练阶段。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21690

arXiv 提交日期: 2026-04-23

llm biology model evaluation genome language model explainability transformer dnabert-2 attention

评估基于Transformer的基因组语言模型DNABERT-2的事后解释 / Evaluating Post-hoc Explanations of the Transformer-based Genome Language Model DNABERT-2

1️⃣ 一句话总结

本文研究了如何为先进的基因组语言模型DNABERT-2生成可解释性分析，通过改进一种名为AttnLRP的方法，成功将模型对DNA序列的预测转化为人类可理解的生物学模式，并证明其解释质量与传统卷积神经网络模型相当。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.24123

1️⃣ 一句话总结

arXiv ID: 2604.24170

1️⃣ 一句话总结

arXiv ID: 2604.24393

1️⃣ 一句话总结

arXiv ID: 2604.24401

1️⃣ 一句话总结

arXiv ID: 2604.23862

1️⃣ 一句话总结

arXiv ID: 2604.23366

1️⃣ 一句话总结

arXiv ID: 2604.22640

1️⃣ 一句话总结

arXiv ID: 2604.21549

1️⃣ 一句话总结

arXiv ID: 2604.21751

1️⃣ 一句话总结

arXiv ID: 2604.21690

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.24123 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24170 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24393 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24401 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.23862 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.23366 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.22640 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21549 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21751 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21690 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.24123

arXiv ID: 2604.24170

arXiv ID: 2604.24393

arXiv ID: 2604.24401

arXiv ID: 2604.23862

arXiv ID: 2604.23366

arXiv ID: 2604.22640

arXiv ID: 2604.21549

arXiv ID: 2604.21751

arXiv ID: 2604.21690