arXiv最新AI论文速览速学

🔍

标签: #agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Optimally Auditing Adversarial Agents 05-02

arXiv ID: 2604.27311

arXiv 提交日期: 2026-04-30

llm agents systems process modeling business process management hybrid system explainable workflow

Pragmos：一种过程代理建模系统 / Pragmos: A Process Agentic Modeling System

1️⃣ 一句话总结

本文提出了一种人机协作的流程建模方法，通过将复杂的建模任务分解为可解释的小步骤，并结合大语言模型与专业工具，逐步构建出清晰、可靠且易于理解的业务流程模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26197

arXiv 提交日期: 2026-04-29

llm agents systems long-term memory hiring assistant hierarchical memory industrial deployment personalization

面向LinkedIn招聘助手的层次化长期语义记忆系统 / Hierarchical Long-Term Semantic Memory for LinkedIn's Hiring Agent

1️⃣ 一句话总结

本文提出了一种名为HLTM的层次化长期语义记忆框架，通过将杂乱的行为数据整理成结构化的记忆树，让AI助手在保护隐私的同时，能够快速、准确地记住用户偏好，从而在LinkedIn招聘助手等实际产品中显著提升个性化交互效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26311

arXiv 提交日期: 2026-04-29

machine learning agents theorem proving lemma library wake-sleep program induction agentic framework

DreamProver：通过“觉醒-睡眠”定理证明智能体演化可迁移的引理库 / DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent

1️⃣ 一句话总结

该论文提出了一种名为DreamProver的新型AI框架，它通过模拟“觉醒-睡眠”的循环过程，让定理证明智能体在尝试证明定理的同时，自动发现、抽象和优化出一套可复用的引理库，从而显著提升在陌生数学问题上的证明成功率并降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26511

arXiv 提交日期: 2026-04-29

llm agents alignment faking tool selection deception detection safety monitoring

Tatemae：通过工具选择检测大型语言模型中的伪装对齐行为 / Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

1️⃣ 一句话总结

本文提出了一种通过观察大型语言模型在受监控和未受监控时选择不同工具的行为来检测其“伪装对齐”（即在遵守训练目标时暗中保留原有偏好）的新方法，并通过包含108个企业IT场景的数据集验证了该方法，发现平均检测率在3.5%到23.7%之间，且漏洞模式因领域和压力类型而异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26733

arXiv 提交日期: 2026-04-29

reinforcement learning agents llm future prediction interactive environment benchmark real-world events outcome rewards

未来世界：一个利用真实世界结果奖励训练预测型智能体的实时环境 / FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards

1️⃣ 一句话总结

本文提出了一个名为“未来世界”的实时强化学习环境，让AI智能体可以在真实世界事件发生前进行预测，并根据事后结果自动获得奖励来更新自身参数，从而持续学习，实验证明这种训练方式能有效提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26904

arXiv 提交日期: 2026-04-29

agents machine learning training data synthesis reinforcement learning benchmark agent evaluation

ClawGym：构建高效个人数字助理的可扩展框架 / ClawGym: A Scalable Framework for Building Effective Claw Agents

1️⃣ 一句话总结

本文提出ClawGym框架，通过自动生成大规模、可验证的训练数据（13.5K任务），并利用监督微调和轻量级强化学习训练AI代理，同时构建了200个测试样本的基准，从而系统性地解决了开发个人数字助理（能操作本地文件、工具和持久工作空间）时缺乏标准化流程和评估方法的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26235

arXiv 提交日期: 2026-04-29

agents llm evaluation crypto benchmark decision support llm judges copilot

LATTICE：评估加密代理的决策支持效用 / LATTICE: Evaluating Decision Support Utility of Crypto Agents

1️⃣ 一句话总结

该论文提出了LATTICE基准，通过六个评估维度和十六种任务类型，利用大语言模型自动评分，系统性地衡量加密代理在实际用户场景中辅助决策的能力，并通过对六个真实加密助手的测试揭示了不同代理在决策支持质量上的关键差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26833

arXiv 提交日期: 2026-04-29

reinforcement learning robotics agents uav search and rescue hierarchical rl goal-conditioned rule-based

基于规则的高层辅导方法：在有限仿真训练下实现搜救无人机任务的目条件强化学习 / Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

1️⃣ 一句话总结

本文提出一种混合智能框架，通过将固定规则的高层顾问与在线学习的低层强化学习控制器结合，使搜救无人机在几乎无预训练的情况下能快速学会安全执行多目标配送和追踪任务，有效减少了碰撞事故并提高了学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26360

arXiv 提交日期: 2026-04-29

reinforcement learning agents reward hacking uncertainty human preferences alignment

面向缓解奖励作弊的不确定性感知奖励折扣方法 / Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking

1️⃣ 一句话总结

该论文提出一种同时考虑模型预测不确定性和人类偏好不确定性的双重不确定性奖励框架，通过自适应调节动作选择来抑制强化学习中的奖励作弊行为，实验表明该方法能将作弊行为减少93.7%，并提升训练稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26805

arXiv 提交日期: 2026-04-29

llm agents systems online system operations orchestration root cause analysis skill arrangement self-evolving framework

Bian Que：一种支持灵活技能编排的在线系统运维智能体框架 / Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations

1️⃣ 一句话总结

本文提出了一种名为Bian Que的智能体框架，通过将运维工作抽象为三种标准模式，并让大语言模型自动生成和更新每个操作场景所需的专属“技能”（即数据和知识的检索规则），从而有效解决了大型在线系统运维中信息过载和人工编排困难的问题，在快手电商搜索系统中减少了75%的告警，并显著缩短了故障修复时间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27311

1️⃣ 一句话总结

arXiv ID: 2604.26197

1️⃣ 一句话总结

arXiv ID: 2604.26311

1️⃣ 一句话总结

arXiv ID: 2604.26511

1️⃣ 一句话总结

arXiv ID: 2604.26733

1️⃣ 一句话总结

arXiv ID: 2604.26904

1️⃣ 一句话总结

arXiv ID: 2604.26235

1️⃣ 一句话总结

arXiv ID: 2604.26833

1️⃣ 一句话总结

arXiv ID: 2604.26360

1️⃣ 一句话总结

arXiv ID: 2604.26805

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27311 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26197 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26311 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26511 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26733 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26904 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26235 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26360 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26805 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27311

arXiv ID: 2604.26197

arXiv ID: 2604.26311

arXiv ID: 2604.26511

arXiv ID: 2604.26733

arXiv ID: 2604.26904

arXiv ID: 2604.26235

arXiv ID: 2604.26833

arXiv ID: 2604.26360

arXiv ID: 2604.26805