arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 64 72小时内新更新论文 72h更新 177 最新: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 05-03

arXiv ID: 2604.10990

arXiv 提交日期: 2026-04-13

natural language processing model evaluation benchmark scientific claim verification compositional reasoning evaluation benchmark model shortcuts closed-world assumption

当验证失败时：组合上不可行的主张如何逃脱被拒绝的命运 / When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

1️⃣ 一句话总结

这篇论文发现，现有的科学主张验证模型存在一个普遍缺陷：它们只关注最显眼的证据，而忽略了组合性证据的整体验证，导致许多看似合理但实际矛盾的主张被错误接受。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11508

arXiv 提交日期: 2026-04-13

model training model evaluation computer vision fine-tuning catastrophic forgetting sample retention architecture comparison vision transformer

并非所有遗忘都相同：微调图像分类器中依赖架构的保留动态 / Not All Forgetting Is Equal: Architecture-Dependent Retention Dynamics in Fine-Tuned Image Classifiers

1️⃣ 一句话总结

这项研究发现，在微调图像分类器时，哪些样本容易被遗忘强烈依赖于所使用的神经网络架构（如CNN和ViT），并且这种遗忘模式在不同训练中并不稳定，这挑战了‘样本难度是固有属性’的假设，并对课程学习、数据剪枝和集成学习等方法提出了新见解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11539

arXiv 提交日期: 2026-04-13

multi-modal computer vision model evaluation vision-language models conditional similarity image retrieval embedding space evaluation dataset

CLAY：视觉-语言嵌入空间中的条件化视觉相似度调制 / CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space

1️⃣ 一句话总结

这篇论文提出了一个名为CLAY的新方法，它无需额外训练，就能利用预训练的视觉-语言模型，让图像检索系统根据用户用文字描述的不同兴趣点（例如“颜色”或“形状”）来灵活、高效地判断图片间的相似度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11610

arXiv 提交日期: 2026-04-13

llm agents model evaluation memory extraction benchmark prompt optimization personalization self-evolving systems

跨异构任务的自进化大语言模型记忆提取 / Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks

1️⃣ 一句话总结

这篇论文针对大语言模型助手需要从多样化任务中提取有用记忆的难题，提出了一个名为CluE的聚类自进化策略，通过将任务分组并综合分析来优化记忆提取提示，从而在多种任务上实现更有效的泛化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11305

arXiv 提交日期: 2026-04-13

theory model evaluation machine learning conformal inference false discovery rate post-hoc analysis statistical guarantees e-variables

超越固定错误发现率：基于E变量的后验合规选择方法 / Beyond Fixed False Discovery Rates: Post-Hoc Conformal Selection with E-Variables

1️⃣ 一句话总结

这篇论文提出了一种名为‘后验合规选择’的新方法，它允许研究人员在分析数据后，根据实际需求灵活地在发现数量和错误率之间进行权衡，而不是像传统方法那样必须预先设定一个固定的错误率控制目标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11775

arXiv 提交日期: 2026-04-13

medical model evaluation machine learning explainable ai medical image segmentation shap 3d vision computational efficiency

基于图像块的3D医学图像分割的高效KernelSHAP解释方法 / Efficient KernelSHAP Explanations for Patch-based 3D Medical Image Segmentation

1️⃣ 一句话总结

这篇论文提出了一种高效的KernelSHAP框架，通过限制计算区域、缓存预测结果和比较不同特征抽象方法，解决了传统方法在3D医学图像分割中计算成本过高的问题，并揭示了解释的准确性与临床可理解性之间的权衡关系。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10981

arXiv 提交日期: 2026-04-13

llm model evaluation benchmark continuity evaluation memory benchmarks evaluation methodology agentic memory long-context

ATANT v1.1：针对记忆、长上下文和智能体记忆基准的连续性定位评估 / ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks

1️⃣ 一句话总结

这篇论文通过系统分析指出，当前流行的多种AI记忆评估基准（如LOCOMO、LongMemEval等）实际上都无法有效衡量AI系统在长对话或故事中保持信息连贯性的核心能力，并呼吁学界应更精准地投资于真正的连续性评估研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11207

arXiv 提交日期: 2026-04-13

computer vision model evaluation benchmark image quality assessment semantic quality human perception dataset challenge

面向人类的语义图像质量评估LoViF 2026挑战赛：方法与结果 / LoViF 2026 Challenge on Human-oriented Semantic Image Quality Assessment: Methods and Results

1️⃣ 一句话总结

这篇论文介绍了LoViF 2026挑战赛，该赛事旨在推动从人类视角评估图像语义信息损失的新研究方向，并基于其构建的SeIQA数据集，成为了该领域一个新的强大基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11530

arXiv 提交日期: 2026-04-13

multi-modal model training model evaluation token pruning vision-language models singular value decomposition computational efficiency training-free

SVD-Prune：一种无需训练的高效视觉语言模型令牌剪枝方法 / SVD-Prune: Training-Free Token Pruning For Efficient Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为SVD-Prune的新方法，它无需额外训练，就能像筛子一样自动筛选出图像中最关键的信息片段，从而让视觉语言模型在保持高性能的同时，大幅降低计算和内存开销，尤其是在处理信息丰富的图像时效果显著。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11141

arXiv 提交日期: 2026-04-13

llm model evaluation systems hallucination mitigation minimum bayes risk enterprise workflows error bounds utility function

通过混合效用最小贝叶斯风险（HUMBR）减少企业AI工作流中的幻觉 / Reducing Hallucination in Enterprise AI Workflows via Hybrid Utility Minimum Bayes Risk (HUMBR)

1️⃣ 一句话总结

这篇论文提出了一种名为HUMBR的新方法，通过结合语义相似性和词汇精确度来识别AI生成内容中的共识，从而显著减少大语言模型在企业高风险工作流程（如法律和合规）中产生错误或虚构信息的风险，实验证明其效果优于现有标准方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.10990

1️⃣ 一句话总结

arXiv ID: 2604.11508

1️⃣ 一句话总结

arXiv ID: 2604.11539

1️⃣ 一句话总结

arXiv ID: 2604.11610

1️⃣ 一句话总结

arXiv ID: 2604.11305

1️⃣ 一句话总结

arXiv ID: 2604.11775

1️⃣ 一句话总结

arXiv ID: 2604.10981

1️⃣ 一句话总结

arXiv ID: 2604.11207

1️⃣ 一句话总结

arXiv ID: 2604.11530

1️⃣ 一句话总结

arXiv ID: 2604.11141

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11508 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11539 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11610 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11305 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10981 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11530 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11141 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.10990

arXiv ID: 2604.11508

arXiv ID: 2604.11539

arXiv ID: 2604.11610

arXiv ID: 2604.11305

arXiv ID: 2604.11775

arXiv ID: 2604.10981

arXiv ID: 2604.11207

arXiv ID: 2604.11530

arXiv ID: 2604.11141