arXiv最新AI论文速览速学

🔍

agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Optimally Auditing Adversarial Agents 05-02

arXiv ID: 2604.25085

arXiv 提交日期: 2026-04-28

agents theory auditing adversarial agents principal-agent game resource allocation

最优审计对抗性代理 / Optimally Auditing Adversarial Agents

1️⃣ 一句话总结

这篇论文研究如何在资源分配（如社会服务或信贷）中设计审计策略，以应对代理可能虚假报告信息以谋取利益的问题，提出了一个通用模型，并给出了在自适应和非自适应两种情况下计算最优审计策略的高效算法，同时考虑了审计预算有限的情况。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25345

arXiv 提交日期: 2026-04-28

agents machine learning systems astrophysics agentic failures scientific workflows silent errors evaluation

看似合理却错误：天体物理工作流中智能体失败案例研究 / Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows

1️⃣ 一句话总结

本文通过测试一个名为CMBAgent的AI系统在天体物理任务中的表现，发现其最危险的问题并非直接报错，而是自信地生成语法正确但物理上错误的结果，尤其在复杂推理任务中难以自我察觉。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25083

arXiv 提交日期: 2026-04-28

agents systems llm computer architecture design exploration microarchitecture agentic workflow code evolution

智能体架构师：用于建筑设计与探索优化的智能体AI框架 / Agentic Architect: An Agentic AI Framework for Architecture Design Exploration and Optimization

1️⃣ 一句话总结

本文提出了一种名为Agentic Architect的AI框架，通过将大语言模型与精确周期模拟相结合，自动探索和优化计算机微架构（如缓存替换、数据预取和分支预测），最终在多项基准测试中超越了现有最优设计，并揭示了智能体AI驱动设计的关键发现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25737

arXiv 提交日期: 2026-04-28

llm agents natural language processing multi-agent code editing benchmark hallucination reduction iterative refinement

SAFEdit：多智能体分解能否解决指令式代码编辑的可靠性挑战？ / SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?

1️⃣ 一句话总结

本研究提出SAFEdit，一个由规划、编辑和验证三个专门智能体协作的多智能体框架，通过将代码编辑任务分解为不同角色并引入结构化错误诊断机制，显著提升了指令式代码编辑的可靠性，在EditBench基准上将成功率从低于60%提升至68.6%，并有效减少了代码编辑中的指令幻觉问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25109

arXiv 提交日期: 2026-04-28

agents systems llm security auditing robustness benchmark classification semantic verification

面向不可信智能体技能的结构化安全审计与鲁棒性增强 / Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills

1️⃣ 一句话总结

本文提出了一种名为SkillGuard-Robust的系统，通过在加载前对智能体技能包进行跨文件的角色感知证据提取、语义验证和一致性裁决，将安全审计从简单的单次提示过滤升级为鲁棒的三分类任务，实验表明该方法能有效抵御恶意改写攻击，并在多数据集中达到97%以上的安全检测准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25325

arXiv 提交日期: 2026-04-28

natural language processing agents model training text-to-sql ranking resampling execution accuracy candidate generation

R³-SQL：基于排序奖励与重采样的文本到SQL框架 / R$^3$-SQL: Ranking Reward and Resampling for Text-to-SQL

1️⃣ 一句话总结

该论文提出了一种名为R³-SQL的新方法，通过将执行结果相同的候选SQL语句分组评分，并智能判断何时需要重新生成更多候选方案，解决了现有文本转SQL系统中评分不一致和正确答案缺失的问题，在多个测试基准上取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25120

arXiv 提交日期: 2026-04-28

medical llm agents clinical trials table reasoning hybrid planning ellm planning

诊断：糟糕的规划与推理；治疗：SCOPE——面向临床试验数据的混合查询规划方案 / Diagnosis, Bad Planning & Reasoning. Treatment, SCOPE -- Planning for Hybrid Querying over Clinical Trial Data

1️⃣ 一句话总结

本文针对大型语言模型在处理临床试验表格时因缺乏显式规划而导致推理错误的问题，提出了一种名为SCOPE的多智能体规划框架，通过将任务拆解为行选择、结构化规划与执行三个步骤，显著提升了在复杂属性推理上的准确率与效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25380

arXiv 提交日期: 2026-04-28

agents multi-modal gui agents benchmark dynamic environments video understanding reflection

高动态环境下的GUI代理基准测试与改进 / Benchmarking and Improving GUI Agents in High-Dynamic Environments

1️⃣ 一句话总结

本文针对现有图形界面代理在处理界面频繁变化的高动态环境时信息获取不足的问题，提出了一个覆盖十个应用场景的在线基准测试DynamicGUIBench，并设计了一种名为DynamicUI的新代理方法，通过分析交互过程视频、动态选择关键帧、优化思考与动作一致性以及引入反思模块，显著提升了代理在动态环境中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24198

arXiv 提交日期: 2026-04-27

agents llm model evaluation process reward model data analysis silent error detection agentic reasoning reinforcement learning

奖励科学过程：面向智能体数据分析的过程级奖励建模 / Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

1️⃣ 一句话总结

本文提出了一种名为DataPRM的智能奖励模型，它能像经验丰富的导师一样，在数据分析任务中逐步识别AI助手的潜在错误（比如逻辑漏洞而非语法错误），同时学会区分“合理的探索尝试”和“真正的失误”，从而显著提升AI在复杂科学数据任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24919

arXiv 提交日期: 2026-04-27

agents machine learning systems remote sensing geospatial reasoning earth observation tool-aware reasoning benchmark

面向遥感领域的智能体AI：技术挑战与研究方向 / Agentic AI for Remote Sensing: Technical Challenges and Research Directions

1️⃣ 一句话总结

本文指出，尽管通用智能体AI在推理和工具使用上取得进展，但遥感任务因涉及地理坐标、多模态数据和时间序列等复杂约束，直接套用通用方法会导致错误无声传播；为此，文章提出了专为遥感设计的智能体原则和未来研究方向，以确保分析结果的物理与地理一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25085

1️⃣ 一句话总结

arXiv ID: 2604.25345

1️⃣ 一句话总结

arXiv ID: 2604.25083

1️⃣ 一句话总结

arXiv ID: 2604.25737

1️⃣ 一句话总结

arXiv ID: 2604.25109

1️⃣ 一句话总结

arXiv ID: 2604.25325

1️⃣ 一句话总结

arXiv ID: 2604.25120

1️⃣ 一句话总结

arXiv ID: 2604.25380

1️⃣ 一句话总结

arXiv ID: 2604.24198

1️⃣ 一句话总结

arXiv ID: 2604.24919

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25085 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25345 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25083 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25109 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25325 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24198 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24919 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25085

arXiv ID: 2604.25345

arXiv ID: 2604.25083

arXiv ID: 2604.25737

arXiv ID: 2604.25109

arXiv ID: 2604.25325

arXiv ID: 2604.25120

arXiv ID: 2604.25380

arXiv ID: 2604.24198

arXiv ID: 2604.24919