arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Agentic AI for Remote Sensing: Technical Challenges and Research Directions 05-02

arXiv ID: 2604.27906

arXiv 提交日期: 2026-04-30

agents systems model evaluation memory systems knowledge extraction benchmark stateful agents schema grounding

从非结构化回忆到基于模式的记忆：通过迭代、模式感知提取实现可靠的AI记忆 / From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction

1️⃣ 一句话总结

本文提出了一种让AI记忆系统更可靠的新方法：通过预先定义好需要记住的信息格式（即“模式”），并让AI在写入记忆时反复核对这些信息，从而将原本依赖“搜索和推测”的记忆方式，转变为“精准记录和查询”，大幅提升了AI在需要精确事实和状态更新场景下的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27819

arXiv 提交日期: 2026-04-30

agents systems evaluation multi-server mcp credential propagation taint tracking benchmark information flow

MCPHunt：多服务器MCP代理中跨边界数据传播的评估框架 / MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

1️⃣ 一句话总结

本文提出了MCPHunt，一个专门用于检测多服务器MCP代理系统中非恶意的、由工作流结构导致的凭证跨边界传播的基准测试框架，通过金丝雀污点追踪、环境控制和层次化策略分类，揭示了即使非恶意模型也会存在11.5%至41.3%的违规数据传播，并发现基于提示的防护虽可减少传播但效果因模型而异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27780

arXiv 提交日期: 2026-04-30

llm systems benchmark rtl code completion hardware description language grammar-driven benchmark systemverilog fill-in-the-middle

RuC：与硬件描述语言无关的规则补全基准生成 / RuC: HDL-Agnostic Rule Completion Benchmark Generation

1️⃣ 一句话总结

本文提出了一种名为RuC的自动化框架，它能基于硬件描述语言的语法规则，从任意HDL代码中生成不同粒度的代码补全测试任务，从而更精细地评估大语言模型在寄存器传输级开发中的代码理解能力，实验表明模型性能受语法结构、提示策略等因素显著影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27724

arXiv 提交日期: 2026-04-30

medical multi-modal retrieval augmented generation medical qa visual retrieval iterative reasoning page-level retrieval benchmark

迭代式多模态检索增强生成用于医疗问答 / Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering

1️⃣ 一句话总结

本文提出了一种名为MED-VRAG的新框架，它通过直接检索医学文献中的整页图像（而非仅提取文本），并利用视觉语言模型进行多轮推理和记忆累积，在多个医疗问答基准测试上显著提升了准确率，证明了图像信息对医疗知识问答的重要价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.28031

arXiv 提交日期: 2026-04-30

llm evaluation benchmark constraint adherence multi-turn scientific ideation driftbench knows-but-violates

模型回忆它们所违反的：多轮LLM构思中的约束遵循 / Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation

1️⃣ 一句话总结

本文通过构建DriftBench基准测试，发现大型语言模型在多轮科学构思迭代中会逐渐偏离原始约束，并揭示了一个关键矛盾：模型能准确回忆约束条件，却在实际生成中频繁违反它们，这种“知而犯之”的现象在不同模型和条件下普遍存在。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27295

arXiv 提交日期: 2026-04-30

machine learning model training learning rate scheduling transfer learning layer-wise adaptation optimization benchmark

学习率工程：从粗粒度单参数到分层演化 / Learning Rate Engineering: From Coarse Single Parameter to Layered Evolution

1️⃣ 一句话总结

本文系统梳理了学习率调度从固定全局值到分层自适应策略的五代演化历程，并提出了一个统一框架DALS，通过结合阶段自适应余弦调度、深度感知梯度滤波和信任比机制，在合成数据和真实微调任务上均取得优异表现，同时揭示了不同训练场景下策略选择的依赖性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26382

arXiv 提交日期: 2026-04-29

systems model evaluation multi-modal document ai benchmark retrieval-augmented generation evaluation framework enterprise

面向复杂多模态文档处理流程的基准测试：企业AI的统一评估框架 / Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI

1️⃣ 一句话总结

本文提出了一个名为EnterpriseDocBench的统一评估框架，用于测试企业文档AI处理流水线（解析、索引、检索、生成）的整体性能，发现混合检索的表现略优于传统BM25方法，而幻觉率并非随文档长度单调增加，且系统回答虽准确但经常遗漏关键内容，揭示了各阶段之间质量并不像预期那样相互级联传递。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26893

arXiv 提交日期: 2026-04-29

computer vision benchmark semantic segmentation rggt uav graph network fine-grained

基于图的语义校准网络用于非对齐无人机RGB-T图像语义分割及大规模基准数据集 / Graph-based Semantic Calibration Network for Unaligned UAV RGBT Image Semantic Segmentation and A Large-scale Benchmark

1️⃣ 一句话总结

本文提出了一种名为GSCNet的图语义校准网络，通过解耦模态特征并利用类别关系图来纠正无人机拍摄的RGB-T图像中因视角和振动导致的空间错位与语义混淆问题，同时构建了包含2.5万对标注图像的URTF数据集，在细粒度地物分割上显著超越现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26567

arXiv 提交日期: 2026-04-29

computer vision data benchmark aerial 3d vision dataset uav geometric annotation pre-training

AirZoo：面向航空几何三维视觉的统一大规模数据集 / AirZoo: A Unified Large-Scale Dataset for Grounding Aerial Geometric 3D Vision

1️⃣ 一句话总结

AirZoo是一个覆盖22个国家、378个区域的大型无人机航拍数据集，通过自动渲染真实三维模型生成带有深度和位置标注的图像，能显著提升现有三维视觉模型在航空场景下的性能，为飞行器空间智能研究提供了关键训练资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26733

arXiv 提交日期: 2026-04-29

reinforcement learning agents llm future prediction interactive environment benchmark real-world events outcome rewards

未来世界：一个利用真实世界结果奖励训练预测型智能体的实时环境 / FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards

1️⃣ 一句话总结

本文提出了一个名为“未来世界”的实时强化学习环境，让AI智能体可以在真实世界事件发生前进行预测，并根据事后结果自动获得奖励来更新自身参数，从而持续学习，实验证明这种训练方式能有效提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27906

1️⃣ 一句话总结

arXiv ID: 2604.27819

1️⃣ 一句话总结

arXiv ID: 2604.27780

1️⃣ 一句话总结

arXiv ID: 2604.27724

1️⃣ 一句话总结

arXiv ID: 2604.28031

1️⃣ 一句话总结

arXiv ID: 2604.27295

1️⃣ 一句话总结

arXiv ID: 2604.26382

1️⃣ 一句话总结

arXiv ID: 2604.26893

1️⃣ 一句话总结

arXiv ID: 2604.26567

1️⃣ 一句话总结

arXiv ID: 2604.26733

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27906 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27780 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.28031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27295 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26893 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26567 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26733 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27906

arXiv ID: 2604.27819

arXiv ID: 2604.27780

arXiv ID: 2604.27724

arXiv ID: 2604.28031

arXiv ID: 2604.27295

arXiv ID: 2604.26382

arXiv ID: 2604.26893

arXiv ID: 2604.26567

arXiv ID: 2604.26733