arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 270 最新: scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns 03-19

arXiv ID: 2603.09742

arXiv 提交日期: 2026-03-10

theory machine learning model evaluation generalization bounds neural oscillators rademacher complexity dynamical systems pac learning

神经振荡器的泛化上界 / Upper Generalization Bounds for Neural Oscillators

1️⃣ 一句话总结

这篇论文从理论上证明了，一种基于二阶微分方程构建的‘神经振荡器’模型，其预测误差会随着模型规模和任务时长缓慢增长，从而避免了参数过多带来的‘维数灾难’，并且通过限制模型复杂度可以有效提升其在小样本数据下的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09349

arXiv 提交日期: 2026-03-10

machine learning model training model evaluation graph anomaly detection domain adaptation foundation model cross-domain generalization anomaly disassortativity

TA-GGAD：用于通用图异常检测的测试时自适应图模型 / TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

1️⃣ 一句话总结

这篇论文提出了一种新的图异常检测通用模型，它通过分析和解决跨域数据中的‘异常非匹配性’问题，仅需一次训练就能有效识别多种不同图数据中的异常节点，并在多个真实数据集上取得了领先的检测精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10072

arXiv 提交日期: 2026-03-10

llm systems model evaluation automated program repair security vulnerabilities patch generation benchmark evaluation semantic understanding

大语言模型为何失败：自动化安全补丁生成的失败分析与部分成功度量 / Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

1️⃣ 一句话总结

这项研究发现，虽然大语言模型能生成语法正确的代码，但在修复软件安全漏洞时，超过一半的补丁在安全性和功能上都存在缺陷，主要是因为模型未能真正理解漏洞的本质，因此生成的补丁在部署前必须经过严格验证。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09203

arXiv 提交日期: 2026-03-10

agents llm model evaluation retrieval-augmented generation multi-hop reasoning process reward reinforcement learning question answering

评估即行动：检索增强智能体的自评估过程奖励 / Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

1️⃣ 一句话总结

这篇论文提出了一种名为EvalAct的新方法，通过让AI在每一步检索信息后立即进行自我评估打分，并结合一种新的训练算法来优化中间推理步骤，从而显著提升了检索增强智能体在复杂多步问答任务中的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09548

arXiv 提交日期: 2026-03-10

computer vision systems model evaluation non-line-of-sight imaging time-of-flight inverse problems radon transform benchmarking

飞行时间非视距成像的综合研究 / A comprehensive study of time-of-flight non-line-of-sight imaging

1️⃣ 一句话总结

这篇论文系统性地研究和比较了多种利用飞行时间技术进行‘拐角成像’的方法，在统一的模型和硬件条件下评估了它们的性能，发现现有方法在同等约束下存在相似的局限性，旨在为未来该领域的研究提供一个客观比较的基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09344

arXiv 提交日期: 2026-03-10

reinforcement learning theory model evaluation offline rl robust optimization policy iteration distribution shift uncertainty quantification

在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种名为RRPI的离线强化学习方法，通过将环境动态建模为不确定集并优化最坏情况下的策略，有效解决了因数据分布偏移导致的性能下降问题，使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09232

arXiv 提交日期: 2026-03-10

audio model evaluation natural language processing contrastive decoding audio language models error analysis inference optimization transition matrix

对比解码如何增强大型音频语言模型？ / How Contrastive Decoding Enhances Large Audio Language Models?

1️⃣ 一句话总结

这项研究通过系统评估发现，对比解码技术能有效纠正大型音频语言模型中‘否认音频存在’或‘依赖猜测’的错误，但无法修正逻辑推理错误，从而为根据模型自身错误特点选择合适的增强策略提供了清晰指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09798

arXiv 提交日期: 2026-03-10

computer vision model training model evaluation action anticipation test-time adaptation multi-label learning ego-exo vision prototype learning

基于多标签原型生长与双线索一致性的测试时第一/第三人称视角自适应动作预测 / Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

1️⃣ 一句话总结

这篇论文提出了一种新方法，让AI模型在测试时能快速适应从不同视角（如第一人称和第三人称）看到的视频，从而更准确地预测接下来会发生什么动作，无需在测试前用新视角数据重新训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09595

arXiv 提交日期: 2026-03-10

natural language processing model training model evaluation fine-tuning domain adaptation political science conflict classification bert models

构建、借用还是微调？政治科学家选择NLP模型的指南 / Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

1️⃣ 一句话总结

这篇论文通过比较在冲突事件分类任务中微调通用模型与使用领域专用模型的性能差异，为政治科学家提供了一个实用的决策框架，指出模型选择的关键取决于任务中事件类别的常见程度、对错误的容忍度以及可用资源，而非抽象的性能优劣。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09117

arXiv 提交日期: 2026-03-10

reinforcement learning llm model evaluation calibration over-confidence rlvr gradient conflict decoupled optimization

解耦推理与置信度：在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1️⃣ 一句话总结

这篇论文发现，在通过可验证奖励训练大语言模型时，追求答案准确性和追求模型对自己的答案有正确的信心（不过度自信）这两个目标是相互冲突的，因此提出了一个名为DCPO的新方法，将这两个目标分开训练，从而在保持答案准确的同时，有效解决了模型对错误答案过度自信的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09742

1️⃣ 一句话总结

arXiv ID: 2603.09349

1️⃣ 一句话总结

arXiv ID: 2603.10072

1️⃣ 一句话总结

arXiv ID: 2603.09203

1️⃣ 一句话总结

arXiv ID: 2603.09548

1️⃣ 一句话总结

arXiv ID: 2603.09344

1️⃣ 一句话总结

arXiv ID: 2603.09232

1️⃣ 一句话总结

arXiv ID: 2603.09798

1️⃣ 一句话总结

arXiv ID: 2603.09595

1️⃣ 一句话总结

arXiv ID: 2603.09117

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09742 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09349 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10072 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09548 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09232 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09798 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09595 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09117 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09742

arXiv ID: 2603.09349

arXiv ID: 2603.10072

arXiv ID: 2603.09203

arXiv ID: 2603.09548

arXiv ID: 2603.09344

arXiv ID: 2603.09232

arXiv ID: 2603.09798

arXiv ID: 2603.09595

arXiv ID: 2603.09117