arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 35 72小时内新更新论文 72h更新 162 最新: Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents 03-23

arXiv ID: 2601.21853

arXiv 提交日期: 2026-01-29

natural language processing systems model evaluation multi-vector retrieval approximate nearest neighbor search latent space search information retrieval retrieval efficiency

LEMUR：基于学习的多向量检索框架 / LEMUR: Learned Multi-Vector Retrieval

1️⃣ 一句话总结

这篇论文提出了一个名为LEMUR的高效框架，通过将复杂的多向量相似度搜索问题转化为一个可学习的单向量搜索问题，从而在保持高检索质量的同时，将多向量检索速度提升了一个数量级。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21210

arXiv 提交日期: 2026-01-29

llm model evaluation theory causal reasoning symbolic verification do-calculus semantic evaluation formal validity

通过符号验证揭示大语言模型因果推理中的隐藏正确性 / Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification

1️⃣ 一句话总结

这篇论文提出了一个名为DoVerifier的符号验证工具，它能够通过严格的因果逻辑规则来检查大语言模型的推理过程，从而发现那些表面看起来错误、但实际上语义正确的答案，为评估模型的因果推理能力提供了更精准的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21615

arXiv 提交日期: 2026-01-29

machine learning model training model evaluation graph neural networks test-time training out-of-distribution representation learning node classification

超越参数微调：面向节点分类的测试时表征精炼 / Beyond Parameter Finetuning: Test-Time Representation Refinement for Node Classification

1️⃣ 一句话总结

这篇论文提出了一种名为TTReFT的新方法，它通过直接调整神经网络学习到的中间数据表示（而非修改模型参数本身），来解决图神经网络在真实场景中遇到未知数据时性能下降的问题，既避免了遗忘原有知识，又显著提升了模型的适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21352

arXiv 提交日期: 2026-01-29

agents systems model evaluation gui agents backtracking planning task automation benchmark

BEAP-Agent：面向图形界面代理的可回溯执行与自适应规划框架 / BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为BEAP-Agent的新框架，它通过将图形界面任务执行建模为深度优先搜索过程，并引入可回溯执行与自适应规划机制，有效解决了现有图形界面代理在任务探索中一旦走错步骤就难以恢复的问题，从而显著提升了处理复杂、长周期任务的鲁棒性和成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21709

arXiv 提交日期: 2026-01-29

llm theory model evaluation attention patterns kv cache rotary positional embeddings inference acceleration model pruning

注意力模式为何存在：一种统一的时序视角分析 / Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

1️⃣ 一句话总结

这篇论文提出了一个名为TAPPA的统一框架，从时序连续性的角度解释了大型语言模型中各种注意力模式的成因，并将其分为可预测和不可预测两类，这一理论不仅深化了对注意力机制的理解，还能有效指导模型推理加速和压缩任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21979

arXiv 提交日期: 2026-01-29

model evaluation computer vision medical fréchet inception distance predictive uncertainty out-of-distribution detection medical imaging monte carlo dropout

使用随机嵌入表示评估Fréchet Inception距离可信度的研究 / Investigation into using stochastic embedding representations for evaluating the trustworthiness of the Fréchet Inception Distance

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过分析模型预测的不确定性来评估FID指标在医学图像等非自然图像上的可靠性，发现这种不确定性可以反映测试数据与模型训练数据的差异程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21816

arXiv 提交日期: 2026-01-29

llm model evaluation machine learning nonparametric evaluation preference data ranking models debiased machine learning uncertainty quantification

基于偏好数据的非参数化大语言模型评估 / Nonparametric LLM Evaluation from Preference Data

1️⃣ 一句话总结

本文提出了一个名为DMLEval的非参数统计框架，它利用去偏机器学习方法，能够更灵活、更可靠地从人类偏好数据中评估和排名不同的大语言模型，同时支持结合预训练模型作为评判者，并为数据收集提供优化建议。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21500

arXiv 提交日期: 2026-01-29

llm model evaluation theory uncertainty estimation bayesian decision theory structured decoding latent space risk minimization

任务感知提升大语言模型的生成质量与不确定性估计 / Task-Awareness Improves LLM Generations and Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过将大语言模型的输出映射到特定任务的结构化空间（如标签、数值或图表），并在此空间内进行最优合成与不确定性评估，从而显著提升了模型回答的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22036

arXiv 提交日期: 2026-01-29

machine learning model evaluation theory representation learning distance metric domain shift geometric invariance generalization

交叉融合距离：一种衡量表征空间中数据组间融合与可分离性的新度量 / Cross-Fusion Distance: A Novel Metric for Measuring Fusion and Separability Between Data Groups in Representation Space

1️⃣ 一句话总结

这篇论文提出了一种名为‘交叉融合距离’的新度量方法，它能有效量化不同数据组在表征空间中的混合程度，专注于捕捉真正影响融合的几何变化，同时忽略无关的全局缩放等干扰，为评估表征学习效果提供了一个更可靠的理论工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21662

arXiv 提交日期: 2026-01-29

multi-modal model evaluation machine learning uncertainty quantification vision-language models riemannian flow matching out-of-distribution detection embedding density

基于黎曼流匹配的预训练视觉语言模型认知不确定性量化 / Epistemic Uncertainty Quantification for Pre-trained VLMs via Riemannian Flow Matching

1️⃣ 一句话总结

这篇论文提出了一种名为REPVLM的新方法，它通过黎曼流匹配技术来量化视觉语言模型在预测时的认知不确定性（即模型对自身知识盲区的认知），实验表明该方法能近乎完美地反映预测错误，并可用于识别未知数据和自动化数据筛选。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.21853

1️⃣ 一句话总结

arXiv ID: 2601.21210

1️⃣ 一句话总结

arXiv ID: 2601.21615

1️⃣ 一句话总结

arXiv ID: 2601.21352

1️⃣ 一句话总结

arXiv ID: 2601.21709

1️⃣ 一句话总结

arXiv ID: 2601.21979

1️⃣ 一句话总结

arXiv ID: 2601.21816

1️⃣ 一句话总结

arXiv ID: 2601.21500

1️⃣ 一句话总结

arXiv ID: 2601.22036

1️⃣ 一句话总结

arXiv ID: 2601.21662

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.21853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21210 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21615 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21352 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21709 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21979 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21816 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21500 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21662 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.21853

arXiv ID: 2601.21210

arXiv ID: 2601.21615

arXiv ID: 2601.21352

arXiv ID: 2601.21709

arXiv ID: 2601.21979

arXiv ID: 2601.21816

arXiv ID: 2601.21500

arXiv ID: 2601.22036

arXiv ID: 2601.21662