arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 05-03

arXiv ID: 2604.12582

arXiv 提交日期: 2026-04-14

multi-modal model evaluation llm video-llm hallucination mitigation attention rebalancing temporal bias inference method

缓解视频大语言模型幻觉：放松锚定帧的主导地位 / Relaxing Anchor-Frame Dominance for Mitigating Hallucinations in Video Large Language Models

1️⃣ 一句话总结

这篇论文发现视频大语言模型在回答问题时，会过度依赖视频中的某一个关键帧（锚定帧），导致回答出现幻觉，并提出了一种无需额外训练、在解码阶段就能自动平衡各帧注意力权重的方法，有效减少了幻觉并保持了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12379

arXiv 提交日期: 2026-04-14

llm model evaluation benchmark reasoning evaluation code generation benchmarking verification coding tasks

超越输出正确性：在编码任务中基准测试和评估大型语言模型的推理能力 / Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks

1️⃣ 一句话总结

这篇论文提出了首个专门用于评估大语言模型在多种编码任务（如生成、总结、分类）中推理质量的基准测试CodeRQ-Bench，并基于此设计了一个名为VERA的两阶段评估器，该评估器通过结合证据验证和模糊感知评分修正，显著提升了推理质量评估的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12615

arXiv 提交日期: 2026-04-14

llm benchmark model evaluation llm testing automotive assistant failure detection information retrieval tool competition

DeepTest工具竞赛2026：基于大语言模型的汽车助手基准测试 / DeepTest Tool Competition 2026: Benchmarking an LLM-Based Automotive Assistant

1️⃣ 一句话总结

这篇论文介绍了2026年ICSE会议上举办的首届大语言模型测试竞赛，通过让四个测试工具挑战一个基于大语言模型的汽车手册问答应用，来评估它们发现系统遗漏安全警告等缺陷的能力和测试用例的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12733

arXiv 提交日期: 2026-04-14

audio machine learning model evaluation audio classification fault detection transformers spectrogram analysis cnn comparison

基于Transformer的音频输入机器故障检测 / Transformer Based Machine Fault Detection From Audio Input

1️⃣ 一句话总结

这篇论文提出使用Transformer模型来分析机器音频，以检测故障，并证明它在分析声音频谱图方面比传统的卷积神经网络（CNN）更具潜力，尤其是在数据充足的情况下。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12411

arXiv 提交日期: 2026-04-14

medical computer vision model evaluation medical image segmentation human-ai collaboration learning to defer trustworthy ai multi-expert system

DeferredSeg：一种用于可信医学图像分割的多专家延迟决策框架 / DeferredSeg: A Multi-Expert Deferral Framework for Trustworthy Medical Image Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为DeferredSeg的新框架，它通过一个智能路由系统，让AI在医学图像分割中遇到不确定区域时，能够自动将判断任务交给人类专家，从而显著提升了分割结果的可靠性和临床实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12471

arXiv 提交日期: 2026-04-14

natural language processing machine learning model evaluation scientific novelty citation analysis multidimensional classification research impact deepseek-v3

超越单一维度新颖性：理论、方法与结果新颖性的组合如何塑造科学影响力 / Beyond Single-Dimension Novelty: How Combinations of Theory, Method, and Results-based Novelty Shape Scientific Impact

1️⃣ 一句话总结

这篇研究发现，在科学论文中，仅包含结果新颖性的文章比同时具备理论、方法和结果三种新颖性的文章更容易获得高引用和成为顶尖论文，揭示了不同新颖性组合对科学影响力的差异化作用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12218

arXiv 提交日期: 2026-04-14

llm systems model evaluation log anomaly detection benchmark automated diagnostics zero-shot learning system reliability

LLM增强的日志异常检测：面向自动化系统诊断的大语言模型综合基准研究 / LLM-Enhanced Log Anomaly Detection: A Comprehensive Benchmark of Large Language Models for Automated System Diagnostics

1️⃣ 一句话总结

这篇论文通过系统性地比较传统方法、微调模型和基于提示的大语言模型在日志异常检测任务上的表现，发现微调模型精度最高，而大语言模型在无需标注数据的情况下也展现出强大的零样本检测能力，为实际应用中的方法选择提供了实用指南。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12757

arXiv 提交日期: 2026-04-14

model evaluation machine learning theory adversarial robustness fairness certified evaluation class disparity welfare economics

GF-Score：具有公平性保证的、经过认证的类条件鲁棒性评估框架 / GF-Score: Certified Class-Conditional Robustness Evaluation with Fairness Guarantees

1️⃣ 一句话总结

这篇论文提出了一个名为GF-Score的新框架，它能够在不依赖对抗性攻击的情况下，精确评估神经网络模型在不同类别上的鲁棒性差异，并用量化指标揭示模型是否对所有类别都提供了公平的保护。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13035

arXiv 提交日期: 2026-04-14

llm multi-modal model evaluation 3d scene synthesis symbolic evaluation spatial reasoning layout refinement ontology

SceneCritic：一种用于3D室内场景合成的符号化评估器 / SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为SceneCritic的符号化评估工具，它基于一个结构化的空间知识库来客观、稳定地评估3D室内场景布局的合理性，解决了现有基于大语言模型或视觉语言模型的评估方法因视角、提示词或幻觉导致的不稳定问题，并通过实验证明了其在评估和指导场景迭代优化方面的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11514

arXiv 提交日期: 2026-04-13

llm model evaluation systems test output prediction code generation pseudocode execution majority voting benchmark

DuET：基于生成代码与伪代码双重执行的测试输出预测 / DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode

1️⃣ 一句话总结

这篇论文提出了一个名为DuET的双重执行框架，它通过结合直接执行生成的代码和让大语言模型模拟执行伪代码这两种互补的方法，并进行多数投票，从而更可靠地预测软件测试的输出结果，显著提升了预测准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.12582

1️⃣ 一句话总结

arXiv ID: 2604.12379

1️⃣ 一句话总结

arXiv ID: 2604.12615

1️⃣ 一句话总结

arXiv ID: 2604.12733

1️⃣ 一句话总结

arXiv ID: 2604.12411

1️⃣ 一句话总结

arXiv ID: 2604.12471

1️⃣ 一句话总结

arXiv ID: 2604.12218

1️⃣ 一句话总结

arXiv ID: 2604.12757

1️⃣ 一句话总结

arXiv ID: 2604.13035

1️⃣ 一句话总结

arXiv ID: 2604.11514

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.12582 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12379 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12615 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12733 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12411 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12471 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12218 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12757 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13035 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11514 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.12582

arXiv ID: 2604.12379

arXiv ID: 2604.12615

arXiv ID: 2604.12733

arXiv ID: 2604.12411

arXiv ID: 2604.12471

arXiv ID: 2604.12218

arXiv ID: 2604.12757

arXiv ID: 2604.13035

arXiv ID: 2604.11514