arXiv最新AI论文速览速学

🔍

agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 83 72小时内新更新论文 72h更新 160 最新: LLM-enabled Social Agents 05-05

arXiv ID: 2604.14216

arXiv 提交日期: 2026-04-10

medical multi-modal agents medical prognosis retrieval-augmented generation trajectory analysis neuroimaging interpretable ai

神经预言家：一种用于可解释癫痫手术预后预测的、基于轨迹感知的智能检索增强生成框架 / Neuro-Oracle: A Trajectory-Aware Agentic RAG Framework for Interpretable Epilepsy Surgical Prognosis

1️⃣ 一句话总结

这篇论文提出了一个名为‘神经预言家’的智能框架，它通过分析病人手术前后大脑核磁共振图像的动态变化轨迹，并结合历史相似病例进行推理，来预测癫痫手术后的康复效果，同时还能生成易于理解的解释性报告。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07813

arXiv 提交日期: 2026-04-09

agents theory machine learning learning theory human-ai interaction delegation capability development agentic ai

代理主义：人工智能时代的一种学习理论 / Agentivism: a learning theory for the age of artificial intelligence

1️⃣ 一句话总结

本文提出了一种名为“代理主义”的新学习理论，旨在解释在人工智能（AI）可以轻松代劳认知工作的新时代，人类如何通过与AI进行有选择地委托、监督、内化和迁移，实现自身能力的持久增长，而不仅仅是依赖AI完成任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08256

arXiv 提交日期: 2026-04-09

llm agents natural language processing long-term memory hypergraph retrieval-augmented generation conversational agents memory architecture

HyperMem：用于长程对话的超图记忆 / HyperMem: Hypergraph Memory for Long-Term Conversations

1️⃣ 一句话总结

这篇论文提出了一个名为HyperMem的新型记忆架构，它使用超图来组织对话内容，能更好地捕捉多个信息点之间的复杂关联，从而让AI在长对话中更连贯、更准确地记住和调用相关信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07733

arXiv 提交日期: 2026-04-09

llm agents benchmark strategic decision-making multi-agent evaluation progress-based metrics game ai long-horizon planning

CivBench：基于进程的评估——用于评估大语言模型在《文明V》中的战略决策能力 / CivBench: Progress-Based Evaluation for LLMs' Strategic Decision-Making in Civilization V

1️⃣ 一句话总结

这篇论文提出了一个名为CivBench的新评估基准，它通过分析《文明V》游戏过程中每一回合的局势来动态预测胜率，从而更精细、更有效地衡量不同大语言模型在复杂、长期、多智能体竞争环境中的战略决策能力，而不仅仅是看最终输赢结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07956

arXiv 提交日期: 2026-04-09

multi-modal agents benchmark industry classification multimodal llm geospatial data multi-agent systems data enrichment

MONETA：通过多智能体系统利用地理信息进行多模态行业分类 / MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems

1️⃣ 一句话总结

这篇论文提出了一个名为MONETA的多模态行业分类新方法，它通过结合公司网站文本、维基百科信息和卫星图像等多种数据源，无需大量人工标注或模型重新训练，就能自动、高效地对欧洲企业进行行业分类，其最佳方案比现有基线模型提升了超过22%的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08523

arXiv 提交日期: 2026-04-09

agents benchmark model evaluation web interaction task automation live evaluation real-world agents multi-step workflows

ClawBench：AI智能体能否完成日常在线任务？ / ClawBench: Can AI Agents Complete Everyday Online Tasks?

1️⃣ 一句话总结

这篇论文提出了一个名为ClawBench的新型评估框架，它包含153个真实网站上的日常在线任务，用于测试AI智能体的实际应用能力，结果发现当前最先进的模型也只能完成其中一小部分任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07851

arXiv 提交日期: 2026-04-09

llm agents model training recommendation systems reinforcement learning reasoning fine-tuning evaluation

ReRec：通过强化微调实现的、基于大语言模型的推理增强推荐助手 / ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning

1️⃣ 一句话总结

这篇论文提出了一个名为ReRec的新框架，它通过一种结合了精细奖励设计和动态学习规划的强化学习方法，来训练大语言模型，使其在复杂的推荐任务中能像人一样进行多步骤推理，从而提供更准确、更个性化的推荐。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08178

arXiv 提交日期: 2026-04-09

agents benchmark model evaluation reward modeling agent trajectories preference benchmark tool usage rlhf

通过规划对齐智能体：一个用于轨迹级奖励建模的基准 / Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

1️⃣ 一句话总结

这篇论文提出了一个名为Plan-RewardBench的新基准测试，专门用于评估和改进智能体在复杂任务中（如使用工具和规划）的奖励模型，发现现有模型在长序列任务上表现不佳，强调了开发专门训练方法的必要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08545

arXiv 提交日期: 2026-04-09

agents model training multi-modal tool usage meta-cognition reinforcement learning efficiency conditional optimization

明智行动：在具身多模态模型中培养元认知工具使用能力 / Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一个名为HDPO的新框架，旨在解决当前多模态AI代理在决定何时使用外部工具时存在的‘元认知缺陷’问题，该框架通过将任务准确性和工具使用效率分开优化，成功训练出既能大幅减少不必要工具调用、又能提升推理准确性的智能模型Metis。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08005

arXiv 提交日期: 2026-04-09

agents computer vision model evaluation adversarial attack multimodal agents attention manipulation security vulnerability gui interaction

注意力集中引导偏好重定向：一种针对计算机使用代理的攻击 / Preference Redirection via Attention Concentration: An Attack on Computer Use Agents

1️⃣ 一句话总结

这篇论文提出了一种名为PRAC的新型攻击方法，它通过在图形界面上植入一个隐蔽的对抗性补丁来误导计算机使用代理的视觉注意力，从而操纵其在网购等任务中的选择行为，即使代理模型经过微调，这种攻击依然有效，揭示了基于多模态大模型的智能代理在视觉模态上存在新的安全漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.14216

1️⃣ 一句话总结

arXiv ID: 2604.07813

1️⃣ 一句话总结

arXiv ID: 2604.08256

1️⃣ 一句话总结

arXiv ID: 2604.07733

1️⃣ 一句话总结

arXiv ID: 2604.07956

1️⃣ 一句话总结

arXiv ID: 2604.08523

1️⃣ 一句话总结

arXiv ID: 2604.07851

1️⃣ 一句话总结

arXiv ID: 2604.08178

1️⃣ 一句话总结

arXiv ID: 2604.08545

1️⃣ 一句话总结

arXiv ID: 2604.08005

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.14216 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07813 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08256 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07733 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07956 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08523 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07851 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08178 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08545 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08005 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.14216

arXiv ID: 2604.07813

arXiv ID: 2604.08256

arXiv ID: 2604.07733

arXiv ID: 2604.07956

arXiv ID: 2604.08523

arXiv ID: 2604.07851

arXiv ID: 2604.08178

arXiv ID: 2604.08545

arXiv ID: 2604.08005