arXiv ID:
2510.14980
组合式机器的能动设计 / Agentic Design of Compositional Machines
1️⃣ 一句话总结
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
组合式机器的能动设计 / Agentic Design of Compositional Machines
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
这篇论文提出了一种名为UI-Simulator的可扩展模拟方法,通过生成多样化的用户界面轨迹来高效训练数字代理,使其在真实任务中表现优于依赖人工数据的方法,并展示了如何用更小的模型达到大模型的性能。
基于信息增益的策略优化:一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
本文提出了一种名为IGPO的强化学习新方法,通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励,有效解决了多轮任务中奖励稀疏和信用分配困难的问题,显著提升了智能体的准确性和学习效率。
VLA^2:通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
这项研究提出了一种名为VLA^2的新型智能体框架,通过整合网络检索和物体检测等外部模块,有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率,在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。
主动性熵平衡策略优化 / Agentic Entropy-Balanced Policy Optimization
这篇论文提出了一种名为AEPO的新强化学习算法,通过动态平衡探索过程中的不确定性,解决了现有方法因过度依赖熵信号导致的训练崩溃问题,在多个复杂任务上显著提升了智能体的工具使用能力。
AI服务:通过AI眼镜实现主动辅助 / AI for Service: Proactive Assistance with AI Glasses
这篇论文提出了一种名为Alpha-Service的新框架,让AI眼镜能够主动预测用户需求并提供实时帮助,从而将AI从被动响应转变为智能主动的日常助手。
LiveResearchBench:面向用户深度网络研究的实时基准测试平台 / LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
该研究提出了一个包含100项真实任务的动态基准测试平台LiveResearchBench和配套评估工具DeepEval,用于系统评估人工智能在复杂网络信息检索与综合报告生成方面的能力,并通过对17种前沿系统的测试揭示了当前技术的优势与不足。
基于渐进难度增强机制的Web智能体数据合成方法 / Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
这篇论文提出了一种通过逐步增加任务难度来合成高质量训练数据的方法,使得训练出的网络智能体在复杂问答任务中表现更优,同时避免了重复工具使用行为。
RAGCap-Bench:评估大语言模型在代理式检索增强生成系统中的能力基准 / RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
这篇论文提出了一个名为RAGCap-Bench的评估基准,专门用于测试大语言模型在复杂检索增强生成系统中执行中间任务的能力,发现具备更强中间推理能力的模型能取得更好的整体表现。
大型推理模型是否可被打断? / Are Large Reasoning Models Interruptible?
这篇论文研究发现,在需要长时间推理的任务中,当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降,揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。
请先 登录 后再提交论文