arXiv ID:
2602.14559
流体智能体强化学习 / Fluid-Agent Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为‘流体智能体’的新框架,让强化学习中的智能体能够像细胞分裂或公司拆分部门一样,根据环境需求动态地创建或调整智能体数量,从而解决传统多智能体强化学习中智能体数量固定不变的限制。
流体智能体强化学习 / Fluid-Agent Reinforcement Learning
这篇论文提出了一种名为‘流体智能体’的新框架,让强化学习中的智能体能够像细胞分裂或公司拆分部门一样,根据环境需求动态地创建或调整智能体数量,从而解决传统多智能体强化学习中智能体数量固定不变的限制。
从诊断到免疫:构建针对AI赋权削弱的认知抵抗力 / From Diagnosis to Inoculation: Building Cognitive Resistance to AI Disempowerment
这篇论文提出了一种基于‘免疫理论’的AI素养教育框架,通过让学生在实践中接触AI的失败模式(如奉承性认同和权威投射),来预防AI助手可能带来的认知与现实扭曲,从而增强用户抵抗力。
Arbor:一个用于关键对话流程可靠导航的框架 / Arbor: A Framework for Reliable Navigation of Critical Conversation Flows
这篇论文提出了一个名为Arbor的框架,它通过将复杂的决策流程拆分成多个小任务,并让AI模型分步执行,从而在医疗分诊等关键对话场景中,显著提升了决策的准确性、速度和成本效益。
通过极端分类在双边市场中实现高精度受众扩展 / High Precision Audience Expansion via Extreme Classification in a Two-Sided Marketplace
这篇论文介绍了Airbnb如何通过将全球地图划分为2500万个均匀网格,并从中精准筛选出最可能被预订的高精度区域,来革新其搜索系统的房源检索方法,从而更高效地匹配房客与房源。
BPP:通过聚焦关键历史帧实现长上下文机器人模仿学习 / BPP: Long-Context Robot Imitation Learning by Focusing on Key History Frames
本文提出了一种名为BPP的新方法,它利用视觉语言模型自动识别任务中的关键帧,让机器人只关注这些有意义的过去时刻,从而有效解决了传统方法在依赖历史观察时容易出错、难以推广到新场景的问题,并在多项真实和模拟任务中取得了显著更好的效果。
Atomix:为可靠智能体工作流提供的及时、事务性工具调用 / Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows
这篇论文提出了一个名为Atomix的系统,它通过为AI智能体的工具调用提供类似数据库事务的保障,确保在发生故障、冲突或推测执行时,未完成的操作可以被安全地撤销或补偿,从而提高了智能体工作流的可靠性和隔离性。
TWISTED-RL:无需人类演示的、用于打结的分层技能智能体 / TWISTED-RL: Hierarchical Skilled Agents for Knot-Tying without Human Demonstrations
这篇论文提出了一种名为TWISTED-RL的新方法,它通过让多个专门的人工智能体合作并利用强化学习来规划抽象的打结动作,从而让机器人能够更高效、更成功地完成多种复杂绳结的打结任务,且完全不需要人类演示。
客服中心AI中的工具感知规划:通过谱系引导的查询分解评估大语言模型 / Tool-Aware Planning in Contact Center AI: Evaluating LLMs through Lineage-Guided Query Decomposition
这篇论文提出了一个用于客服中心场景的评估框架,通过将复杂的业务查询分解为可执行的步骤来测试大语言模型的工具规划能力,发现模型在处理多步骤和复杂查询时仍存在显著困难,并揭示了工具理解与使用方面的关键不足。
选择合适的专家:基于注意力神经过程的医疗智能体任务专家模型选择工具 / Picking the Right Specialist: Attentive Neural Process-based Selection of Task-Specialized Models as Tools for Agentic Healthcare Systems
这篇论文提出了一种名为ToolSelect的智能选择方法,它能让医疗AI系统在面对不同任务(如疾病诊断、报告生成)时,像一位经验丰富的调度员一样,自动从众多专家模型中挑选出最适合处理当前具体问题的那一个,从而显著提升系统的整体表现。
BFS-PO:针对大型推理模型的最佳优先搜索算法 / BFS-PO: Best-First Search for Large Reasoning Models
这篇论文提出了一种名为BFS-PO的新算法,它通过最佳优先搜索策略来训练大型推理模型,旨在解决模型因过度思考而产生的冗长回答和高计算成本问题,从而让模型在提高答案准确率的同时,生成更简洁的推理过程。
请先 登录 后再提交论文