arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: xplainfi: Feature Importance and Statistical Inference for Machine Learning in R 03-17

arXiv ID: 2603.15283

arXiv 提交日期: 2026-03-16

reinforcement learning systems model evaluation traffic signal control robustness evaluation adaptive control distributed training simulation

评估基于强化学习的自适应交通信号控制的鲁棒性 / Evaluating the Robustness of Reinforcement Learning based Adaptive Traffic Signal Control

1️⃣ 一句话总结

本研究开发并测试了一种基于强化学习的交通信号控制算法，该算法采用与真实信号控制器一致的复杂相位结构，并通过分布式训练提升效率，实验表明其在多种交通需求下能显著优于传统感应控制，但模型的鲁棒性高度依赖于训练数据的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15557

arXiv 提交日期: 2026-03-16

multi-modal model evaluation natural language processing hallucination detection vision-language models cognitive trajectory information-theoretic probes diagnostic framework

谎言的剖析：一个用于追踪视觉语言模型幻觉的多阶段诊断框架 / Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，将视觉语言模型产生幻觉（即生成看似合理但事实错误的描述）的过程，看作是其内部“计算认知”的动态病理轨迹，并通过一个可解释的“认知状态空间”来检测和归因这些错误，从而让模型的推理过程更透明、可诊断。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14709

arXiv 提交日期: 2026-03-16

machine learning model evaluation systems time series forecasting retrieval-augmented generation zero-shot learning cross-attention foundation models

Cross-RAG：一种通过交叉注意力实现零样本检索增强的时间序列预测方法 / Cross-RAG: Zero-Shot Retrieval-Augmented Time Series Forecasting via Cross-Attention

1️⃣ 一句话总结

这篇论文提出了一种名为Cross-RAG的新方法，它通过一种智能的交叉注意力机制，让时间序列预测模型能够从外部知识库中自动筛选并利用最相关的历史数据，从而显著提升了模型在未见过的数据集上进行零样本预测的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14845

arXiv 提交日期: 2026-03-16

multi-modal systems model evaluation solar irradiance forecasting weather foundation model satellite imagery multimodal fusion energy grid integration

融合天气基础模型与卫星数据实现精细化太阳辐照度预报 / IntegratingWeather Foundation Model and Satellite to Enable Fine-Grained Solar Irradiance Forecasting

1️⃣ 一句话总结

该论文提出了一个名为Baguan-solar的两阶段多模态框架，通过融合全球天气基础模型的预报和高分辨率卫星图像，实现了公里级、未来24小时的高精度太阳辐照度预测，有效解决了现有方法在精细尺度或长期预报上的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15617

arXiv 提交日期: 2026-03-16

llm benchmark model evaluation mathematical reasoning automated verification unsolved problems ai research data contamination

HorizonMath：通过自动验证衡量AI在数学发现上的进展 / HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

1️⃣ 一句话总结

这篇论文提出了一个名为HorizonMath的基准测试，包含100多个未解决的数学问题，旨在通过自动验证来评估AI是否能在数学研究中做出真正的新发现，并初步展示了先进模型在其中两个问题上取得了优于已知结果的潜在突破。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14968

arXiv 提交日期: 2026-03-16

llm systems model evaluation watermark detection black-box verification third-party auditing hypothesis testing security

重新思考黑盒环境下的LLM水印检测：一种非侵入式的第三方框架 / Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework

1️⃣ 一句话总结

这篇论文提出了一个名为TTP-Detect的创新框架，它允许第三方在不接触模型内部秘密或依赖服务商的情况下，独立检测大语言模型生成文本中的水印，从而解决了现有水印技术难以独立审计和监管的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14846

arXiv 提交日期: 2026-03-16

theory machine learning model evaluation graph neural networks expressivity message passing color refinement graph isomorphism

聚合中的迷失：论消息传递图神经网络表达能力的一个根本性限制 / Lost in Aggregation: On a Fundamental Expressivity Limit of Message-Passing Graph Neural Networks

1️⃣ 一句话总结

这篇论文证明，无论采用何种聚合方式，消息传递图神经网络（MP-GNN）区分不同图结构的能力存在根本性上限，其表达能力远弱于经典的图着色算法，无法有效区分数量庞大的非同构图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14855

arXiv 提交日期: 2026-03-16

llm systems model evaluation decompilation binary analysis code translation runtime validation feedback-driven

PCodeTrans：将反编译得到的伪代码转换为可编译和可执行的等价代码 / PCodeTrans: Translate Decompiled Pseudocode to Compilable and Executable Equivalent

1️⃣ 一句话总结

这篇论文提出了一个名为PCodeTrans的智能框架，它能够自动修复反编译工具产生的伪代码，不仅确保修复后的代码可以成功编译，还能在运行时精确地复制原始程序的行为，从而为软件更新和安全漏洞修复等关键任务提供了可靠的技术支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15408

arXiv 提交日期: 2026-03-16

multi-agents systems model evaluation safety evaluation security monitoring risk taxonomy multi-agent systems llm security

TrinityGuard：一个用于保障多智能体系统安全的统一框架 / TrinityGuard: A Unified Framework for Safeguarding Multi-Agent Systems

1️⃣ 一句话总结

这篇论文提出了一个名为TrinityGuard的综合性框架，专门用于评估和监控基于大语言模型的多智能体系统的安全风险，它通过三层风险分类、可定制的测试模块和实时监控，帮助开发者在系统开发前和运行中发现并防范潜在威胁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12254

arXiv 提交日期: 2026-03-12

multi-modal model training model evaluation video understanding token reduction autoregressive selection reinforcement learning benchmark

先注视再关注：通过自回归凝视实现高效且可扩展的视频理解 / Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

1️⃣ 一句话总结

这篇论文提出了一个名为AutoGaze的轻量级模块，它通过自回归学习的方式，智能地筛选出视频中最关键的画面片段，从而让大模型在处理长、高清视频时能大幅减少计算量、提升速度，同时保持甚至超越原有的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15283

1️⃣ 一句话总结

arXiv ID: 2603.15557

1️⃣ 一句话总结

arXiv ID: 2603.14709

1️⃣ 一句话总结

arXiv ID: 2603.14845

1️⃣ 一句话总结

arXiv ID: 2603.15617

1️⃣ 一句话总结

arXiv ID: 2603.14968

1️⃣ 一句话总结

arXiv ID: 2603.14846

1️⃣ 一句话总结

arXiv ID: 2603.14855

1️⃣ 一句话总结

arXiv ID: 2603.15408

1️⃣ 一句话总结

arXiv ID: 2603.12254

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15283 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15557 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14709 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14845 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15617 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14968 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14846 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14855 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15408 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12254 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15283

arXiv ID: 2603.15557

arXiv ID: 2603.14709

arXiv ID: 2603.14845

arXiv ID: 2603.15617

arXiv ID: 2603.14968

arXiv ID: 2603.14846

arXiv ID: 2603.14855

arXiv ID: 2603.15408

arXiv ID: 2603.12254