arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 05-03

arXiv ID: 2604.07967

arXiv 提交日期: 2026-04-09

llm natural language processing model evaluation fact verification adversarial evaluation claim decomposition validity scoring benchmark

AtomEval：事实核查中对抗性主张的原子化评估 / AtomEval: Atomic Evaluation of Adversarial Claims in Fact Verification

1️⃣ 一句话总结

这篇论文提出了一个名为AtomEval的新评估框架，它通过将事实主张拆解成原子成分并检查其真实性是否被破坏，从而更可靠地评估对抗性改写对事实核查系统的攻击效果，研究发现更强的AI模型未必能生成更有效的对抗性主张。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08476

arXiv 提交日期: 2026-04-09

multi-modal model training model evaluation visual reasoning reinforcement learning chain-of-thought policy optimization spatial reasoning

忠实GRPO：通过约束策略优化提升多模态语言模型的视觉空间推理能力 / Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

1️⃣ 一句话总结

这篇论文发现现有的多模态推理模型在提升答案准确率时，其推理过程常常与答案不一致或脱离图像证据，因此提出了一种名为“忠实GRPO”的新训练方法，通过强制模型在推理过程中保持逻辑一致性和视觉证据的准确描述，从而显著提升了推理质量和最终答案的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07914

arXiv 提交日期: 2026-04-09

multi-modal model training model evaluation vision-language models hallucination reduction latent intervention generation behavior controlled steering

缓解大型视觉语言模型中的纠缠引导以降低幻觉 / Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction

1️⃣ 一句话总结

本文提出了一种名为MESA的即插即用框架，通过有选择性地干预模型内部信号来减少AI看图说话时产生的‘幻觉’（即文本与图像内容不符），同时避免了现有方法导致的输出变短或语言风格改变等问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07953

arXiv 提交日期: 2026-04-09

machine learning model evaluation systems time series classification model pruning energy efficiency sustainable ai benchmark

面向可持续时间序列分类的剪枝扩展与效率权衡 / Pruning Extensions and Efficiency Trade-Offs for Sustainable Time Series Classification

1️⃣ 一句话总结

这篇论文提出了一个评估框架，通过对主流时间序列分类模型进行剪枝，在保证预测精度损失很小的前提下，最高可降低80%的能耗，推动了该领域向可持续、高效的方向发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08263

arXiv 提交日期: 2026-04-09

machine learning model evaluation education knowledge tracing neural-symbolic ai interpretability educational ai learner modeling

神经符号知识追踪：将教育知识注入深度学习以实现负责任的学习者建模 / Neural-Symbolic Knowledge Tracing: Injecting Educational Knowledge into Deep Learning for Responsible Learner Modelling

1️⃣ 一句话总结

这篇论文提出了一种名为Responsible-DKT的神经符号知识追踪方法，通过将教育规则（如掌握与未掌握）融入深度学习模型，不仅提升了预测学生表现的准确性和稳定性，还使模型决策过程更可解释，从而支持更负责任、以人为中心的教育人工智能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06945

arXiv 提交日期: 2026-04-08

video benchmark model evaluation video restoration bitstream corruption artifact removal spatial-temporal artifacts challenge report

NTIRE 2026 比特流损坏视频修复挑战赛：方法与结果 / NTIRE 2026 Challenge on Bitstream-Corrupted Video Restoration: Methods and Results

1️⃣ 一句话总结

这篇论文介绍了NTIRE 2026比特流损坏视频修复挑战赛，它通过提供一个公共基准来推动从损坏视频流中恢复高质量视频的研究，并总结了当前的技术趋势和未来方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07472

arXiv 提交日期: 2026-04-08

llm systems model evaluation inference serving resource allocation heterogeneous gpus slo constraints mixed-integer programming

快速异构服务：面向SLO约束推理的可扩展混合规模大语言模型分配 / Fast Heterogeneous Serving: Scalable Mixed-Scale LLM Allocation for SLO-Constrained Inference

1️⃣ 一句话总结

这篇论文提出了两种高效的算法，能在满足延迟、准确率和预算等严格约束的前提下，快速地为大语言模型推理服务自动选择和配置不同型号的GPU资源，在保证服务质量的同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07012

arXiv 提交日期: 2026-04-08

llm natural language processing model evaluation retrieval-augmented generation recursive summarization question answering document summarization efficiency

DTCRS：用于递归摘要的动态树构建方法 / DTCRS: Dynamic Tree Construction for Recursive Summarization

1️⃣ 一句话总结

这篇论文提出了一种名为DTCRS的新方法，它能根据文档结构和问题语义动态构建摘要树，有效减少冗余、提升问答效率，并分析了递归摘要技术对不同类型问题的适用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07413

arXiv 提交日期: 2026-04-08

multi-modal model evaluation benchmark manufacturing multimodal llms fine-grained evaluation domain adaptation visual grounding

FORGE：面向制造场景的细粒度多模态评估 / FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为FORGE的评估框架，通过构建包含真实2D图像和3D点云的细粒度标注数据集，评估了多模态大模型在制造业任务中的表现，发现其核心瓶颈并非视觉理解能力，而是缺乏领域专业知识，并证明了利用该数据集进行微调能显著提升模型在制造业场景下的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06753

arXiv 提交日期: 2026-04-08

llm agents model evaluation reasoning paradigms inference-time optimization paradigm routing agent evaluation benchmarking

先选择后解决：将范式路由作为LLM智能体在推理时的优化策略 / Select-then-Solve: Paradigm Routing as Inference-Time Optimization for LLM Agents

1️⃣ 一句话总结

这篇论文研究发现，不同的推理范式（如直接回答、思维链、反思等）在不同任务上表现差异巨大，没有一种范式能通吃所有任务，因此提出了一种轻量级的学习型路由器，能在处理每个任务前自动选择最合适的推理范式，从而显著提升大语言模型智能体的整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.07967

1️⃣ 一句话总结

arXiv ID: 2604.08476

1️⃣ 一句话总结

arXiv ID: 2604.07914

1️⃣ 一句话总结

arXiv ID: 2604.07953

1️⃣ 一句话总结

arXiv ID: 2604.08263

1️⃣ 一句话总结

arXiv ID: 2604.06945

1️⃣ 一句话总结

arXiv ID: 2604.07472

1️⃣ 一句话总结

arXiv ID: 2604.07012

1️⃣ 一句话总结

arXiv ID: 2604.07413

1️⃣ 一句话总结

arXiv ID: 2604.06753

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.07967 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07914 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08263 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07472 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07012 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07413 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06753 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.07967

arXiv ID: 2604.08476

arXiv ID: 2604.07914

arXiv ID: 2604.07953

arXiv ID: 2604.08263

arXiv ID: 2604.06945

arXiv ID: 2604.07472

arXiv ID: 2604.07012

arXiv ID: 2604.07413

arXiv ID: 2604.06753