arXiv最新AI论文速览速学

🔍

agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 58 72小时内新更新论文 72h更新 158 最新: MultiDx: A Multi-Source Knowledge Integration Framework towards Diagnostic Reasoning 05-03

arXiv ID: 2510.14980

arXiv 提交日期: 2025-10-16

llm agents model training machine design physical reasoning reinforcement learning spatial reasoning compositional assembly

组合式机器的能动设计 / Agentic Design of Compositional Machines

1️⃣ 一句话总结

这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器，并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14969

arXiv 提交日期: 2025-10-16

agents llm model training ui simulation agent training synthetic data digital agents scaling strategy

作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

1️⃣ 一句话总结

这篇论文提出了一种名为UI-Simulator的可扩展模拟方法，通过生成多样化的用户界面轨迹来高效训练数字代理，使其在真实任务中表现优于依赖人工数据的方法，并展示了如何用更小的模型达到大模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14967

arXiv 提交日期: 2025-10-16

llm agents reinforcement learning multi-turn agents policy optimization information gain credit assignment reward shaping

基于信息增益的策略优化：一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

1️⃣ 一句话总结

本文提出了一种名为IGPO的强化学习新方法，通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励，有效解决了多轮任务中奖励稀疏和信用分配困难的问题，显著提升了智能体的准确性和学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14902

arXiv 提交日期: 2025-10-16

robotics multi-modal agents vision-language-action agentic framework generalization object manipulation simulation benchmark

VLA^2：通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

1️⃣ 一句话总结

这项研究提出了一种名为VLA^2的新型智能体框架，通过整合网络检索和物体检测等外部模块，有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率，在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14545

arXiv 提交日期: 2025-10-16

agents reinforcement learning model training policy optimization entropy balancing tool-use agents web agents rollout sampling

主动性熵平衡策略优化 / Agentic Entropy-Balanced Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为AEPO的新强化学习算法，通过动态平衡探索过程中的不确定性，解决了现有方法因过度依赖熵信号导致的训练崩溃问题，在多个复杂任务上显著提升了智能体的工具使用能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14359

arXiv 提交日期: 2025-10-16

agents systems multi-modal proactive assistance egocentric vision multi-agent system wearable ai real-time intervention

AI服务：通过AI眼镜实现主动辅助 / AI for Service: Proactive Assistance with AI Glasses

1️⃣ 一句话总结

这篇论文提出了一种名为Alpha-Service的新框架，让AI眼镜能够主动预测用户需求并提供实时帮助，从而将AI从被动响应转变为智能主动的日常助手。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14240

arXiv 提交日期: 2025-10-16

benchmark agents model evaluation web search multi-agent systems citation evaluation long-form reports real-time information

LiveResearchBench：面向用户深度网络研究的实时基准测试平台 / LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

1️⃣ 一句话总结

该研究提出了一个包含100项真实任务的动态基准测试平台LiveResearchBench和配套评估工具DeepEval，用于系统评估人工智能在复杂网络信息检索与综合报告生成方面的能力，并通过对17种前沿系统的测试揭示了当前技术的优势与不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13913

arXiv 提交日期: 2025-10-15

agents data model training web agents data synthesis difficulty progression instruction tuning tool usage

基于渐进难度增强机制的Web智能体数据合成方法 / Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

1️⃣ 一句话总结

这篇论文提出了一种通过逐步增加任务难度来合成高质量训练数据的方法，使得训练出的网络智能体在复杂问答任务中表现更优，同时避免了重复工具使用行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13910

arXiv 提交日期: 2025-10-15

llm agents benchmark retrieval-augmented generation multi-hop reasoning agentic systems evaluation framework intermediate reasoning

RAGCap-Bench：评估大语言模型在代理式检索增强生成系统中的能力基准 / RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

1️⃣ 一句话总结

这篇论文提出了一个名为RAGCap-Bench的评估基准，专门用于测试大语言模型在复杂检索增强生成系统中执行中间任务的能力，发现具备更强中间推理能力的模型能取得更好的整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11713

arXiv 提交日期: 2025-10-13

llm model evaluation agents reasoning models interruptibility dynamic evaluation robustness failure modes

大型推理模型是否可被打断？ / Are Large Reasoning Models Interruptible?

1️⃣ 一句话总结

这篇论文研究发现，在需要长时间推理的任务中，当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降，揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.14980

1️⃣ 一句话总结

arXiv ID: 2510.14969

1️⃣ 一句话总结

arXiv ID: 2510.14967

1️⃣ 一句话总结

arXiv ID: 2510.14902

1️⃣ 一句话总结

arXiv ID: 2510.14545

1️⃣ 一句话总结

arXiv ID: 2510.14359

1️⃣ 一句话总结

arXiv ID: 2510.14240

1️⃣ 一句话总结

arXiv ID: 2510.13913

1️⃣ 一句话总结

arXiv ID: 2510.13910

1️⃣ 一句话总结

arXiv ID: 2510.11713

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.14980 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14969 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14967 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14902 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14545 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14359 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14240 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13913 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13910 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11713 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.14980

arXiv ID: 2510.14969

arXiv ID: 2510.14967

arXiv ID: 2510.14902

arXiv ID: 2510.14545

arXiv ID: 2510.14359

arXiv ID: 2510.14240

arXiv ID: 2510.13913

arXiv ID: 2510.13910

arXiv ID: 2510.11713