arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns 03-19

arXiv ID: 2603.14992

arXiv 提交日期: 2026-03-16

multi-modal natural language processing model evaluation fake news detection cross-modal consistency short-form video multimodal misinformation benchmark

通过揭示跨模态一致性进行短视频假新闻检测 / Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos

1️⃣ 一句话总结

这篇论文提出了一种名为MAGIC3的新方法，通过专门分析和暴露短视频中文字、画面和声音之间不一致的微妙关系来检测假新闻，在保持高精度的同时大幅提升了检测效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15253

arXiv 提交日期: 2026-03-16

model evaluation benchmark multi-modal hallucination detection vision-language models image captioning dataset curation evaluation benchmark

HalDec-Bench：图像描述任务中幻觉检测器的基准测试 / HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning

1️⃣ 一句话总结

这篇论文提出了一个名为HalDec-Bench的新基准测试，用于系统评估视觉语言模型在检测图像描述中‘幻觉’（即描述与图像内容不符的错误）的能力，并发现现有检测器倾向于盲目相信描述开头的句子，同时指出可以利用强大的视觉语言模型作为过滤器来有效提升训练数据的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15158

arXiv 提交日期: 2026-03-16

theory machine learning model evaluation domain adaptation latent shift causal inference point identification proxy variables

基于不完美代理变量的潜在分布偏移下鲁棒预测器的点识别 / Point-Identification of a Robust Predictor Under Latent Shift with Imperfect Proxies

1️⃣ 一句话总结

这篇论文提出了一种新方法，在存在潜在混淆变量且代理变量不完美的情况下，通过利用多个领域数据中代理变量诱导的潜在等价类混合方式的差异，成功实现了鲁棒预测器的唯一确定（点识别），并开发了一个主动学习框架来高效地实现这一目标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15130

arXiv 提交日期: 2026-03-16

natural language processing llm model evaluation indirect question answering multilingual corpora pragmatic understanding low-resource languages transformer models

英语、德语和巴伐利亚语中的间接问答：一项对高资源和低资源语言均具挑战性的任务 / Indirect Question Answering in English, German and Bavarian: A Challenging Task for High- and Low-Resource Languages Alike

1️⃣ 一句话总结

这篇论文通过构建包含英语、标准德语和巴伐利亚方言的间接问答数据集，发现即使使用先进的AI模型，准确理解日常交流中常见的间接回答意图仍是一项非常困难的任务，并且当前AI模型尚不具备生成高质量相关数据的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15091

arXiv 提交日期: 2026-03-16

theory machine learning model evaluation koopman operator dynamical systems invariance diagnostics error bounds spectral analysis

可信的库普曼算子学习：不变性诊断与误差界 / Trustworthy Koopman Operator Learning: Invariance Diagnostics and Error Bounds

1️⃣ 一句话总结

这篇论文提出了一套新方法，用于诊断和量化数据驱动的库普曼算子近似模型中的误差，并提供了可验证的误差界限，从而帮助用户判断模型是否可靠并指导其改进，最终实现更可信的非线性系统分析与预测。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14818

arXiv 提交日期: 2026-03-16

model evaluation systems theory neural network compression probabilistic certification behavioral similarity safety verification quantization and pruning

SimCert：深度神经网络压缩中行为相似性的概率性认证框架 / SimCert: Probabilistic Certification for Behavioral Similarity in Deep Neural Network Compression

1️⃣ 一句话总结

这篇论文提出了一个名为SimCert的概率性认证框架，它能高效地为经过压缩（如量化和剪枝）的深度神经网络提供可调整置信度的行为相似性安全保证，解决了现有方法在可扩展性和处理架构异构性方面的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15402

arXiv 提交日期: 2026-03-16

llm natural language processing model evaluation table understanding attention mechanisms interpretability mixture-of-experts tabular data

深入探究大语言模型在表格理解中的内部机制 / A Closer Look into LLMs for Table Understanding

1️⃣ 一句话总结

这篇论文通过实证研究发现，大语言模型理解表格数据时遵循一个三阶段的注意力模式，并且表格任务比数学推理需要更深层的网络处理，同时揭示了混合专家模型在表格理解中如何激活特定专家。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14688

arXiv 提交日期: 2026-03-16

agents systems model evaluation root cause analysis causal graph multi-agent systems failure diagnosis debugging

AgentTrace：用于已部署多智能体系统根因分析的因果图追踪框架 / AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems

1️⃣ 一句话总结

这篇论文提出了一个名为AgentTrace的轻量级框架，它通过分析系统运行日志自动构建因果图，能够快速、准确地定位多智能体系统故障的根本原因，而无需在调试时调用大语言模型，从而提升了这类系统的可靠性和可维护性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15500

arXiv 提交日期: 2026-03-16

llm theory model evaluation reasoning uncertainty information theory epistemic verbalization aha moments

不确定性下通过策略性信息分配理解大语言模型的推理机制 / Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种信息论框架，认为大语言模型在推理时，通过将内在的不确定性明确表达出来（即‘认知言语化’），而非依赖特定的表面词汇，来持续获取信息并提升推理性能，这解释了模型看似‘顿悟’的自我修正现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14935

arXiv 提交日期: 2026-03-16

multi-modal model evaluation natural language processing video event prediction temporal modeling logical reasoning chain of events multimodal llm

Video-CoE：通过事件链强化视频事件预测 / Video-CoE: Reinforcing Video Event Prediction via Chain of Events

1️⃣ 一句话总结

这篇论文针对现有多模态大模型在预测视频未来事件时存在的逻辑推理和视觉信息利用不足的问题，提出了一种‘事件链’的新方法，通过构建时序事件链来引导模型关注视频内容与未来事件之间的逻辑联系，从而显著提升了视频事件预测的准确率，并在公开基准测试中取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14992

1️⃣ 一句话总结

arXiv ID: 2603.15253

1️⃣ 一句话总结

arXiv ID: 2603.15158

1️⃣ 一句话总结

arXiv ID: 2603.15130

1️⃣ 一句话总结

arXiv ID: 2603.15091

1️⃣ 一句话总结

arXiv ID: 2603.14818

1️⃣ 一句话总结

arXiv ID: 2603.15402

1️⃣ 一句话总结

arXiv ID: 2603.14688

1️⃣ 一句话总结

arXiv ID: 2603.15500

1️⃣ 一句话总结

arXiv ID: 2603.14935

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14992 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15253 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15158 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15091 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14818 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15402 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14688 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15500 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14935 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14992

arXiv ID: 2603.15253

arXiv ID: 2603.15158

arXiv ID: 2603.15130

arXiv ID: 2603.15091

arXiv ID: 2603.14818

arXiv ID: 2603.15402

arXiv ID: 2603.14688

arXiv ID: 2603.15500

arXiv ID: 2603.14935