arXiv最新AI论文速览速学

🔍

标签: #hierarchical rl ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models 06-04

arXiv ID: 2606.04562

arXiv 提交日期: 2026-06-03

reinforcement learning agents systems uncertainty-aware public policy epidemic simulation hierarchical rl human behavior

Neetyabhas：理性智能体模型中面向不确定性感知的公共政策优化框架 / Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models

1️⃣ 一句话总结

该研究提出一个新的模拟框架，通过将个体行为、测量误差和政策执行中的不确定性纳入模型，利用深度强化学习智能体同时模拟人群的实时选择（如戴口罩、打疫苗）和政府干预（如封锁、强制措施），从而更真实地评估疫情防控策略的效果，并发现口罩和疫苗是降低疫情峰值和缩短持续时间的关键工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28127

arXiv 提交日期: 2026-05-27

reinforcement learning machine learning goal-conditioned hierarchical rl offline rl long-horizon subgoal planning

面向长视距离线目标条件强化学习的自适应由粗到精子目标细化方法 / Adaptive Coarse-to-Fine Subgoal Refinement for Long-Horizon Offline Goal-Conditioned Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为CFHRL的全离线强化学习框架，通过从最终目标开始递归生成中间子目标，并仅在当前子目标被判定为可局部执行时才停止细化，从而在长距离任务中自适应地将遥远目标分解为一系列更容易实现的子目标，显著提升了学习效率与任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.05389

arXiv 提交日期: 2026-05-06

machine learning reinforcement learning vehicle routing multigraph node-edge factorization hierarchical rl scalability

面向多图的可扩展路由的两阶段学习分解方法 / Two-Stage Learned Decomposition for Scalable Routing on Multigraphs

1️⃣ 一句话总结

本文提出了一种名为NEPF的两阶段学习方法，将复杂的车辆路径问题分解为节点排序和边选择两个步骤，通过预编码聚合和非自回归架构显著提升训练与推理效率，在多种多图场景下达到了当前最优或相近的求解质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26833

arXiv 提交日期: 2026-04-29

reinforcement learning robotics agents uav search and rescue hierarchical rl goal-conditioned rule-based

基于规则的高层辅导方法：在有限仿真训练下实现搜救无人机任务的目条件强化学习 / Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

1️⃣ 一句话总结

本文提出一种混合智能框架，通过将固定规则的高层顾问与在线学习的低层强化学习控制器结合，使搜救无人机在几乎无预训练的情况下能快速学会安全执行多目标配送和追踪任务，有效减少了碰撞事故并提高了学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14032

arXiv 提交日期: 2026-04-15

reinforcement learning systems agents hierarchical rl safety shielding power grid control runtime verification zero-shot generalization

基于运行时安全屏蔽的分层强化学习在电网运行中的应用 / Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation

1️⃣ 一句话总结

这篇论文提出了一种结合高层强化学习和实时安全屏蔽的分层控制框架，让AI在安全硬约束下自动管理电网，从而在保证绝对安全的同时，显著提升了系统在罕见故障和未知电网结构下的鲁棒性与泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16060

arXiv 提交日期: 2026-03-17

reinforcement learning agents model training hierarchical rl skill library mathematical reasoning policy learning co-evolution

ARISE：分层强化学习中基于内在技能演化的智能体推理 / ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为ARISE的分层强化学习框架，它通过让智能体在训练中自动总结和复用成功的解题策略（技能），来持续提升大语言模型的数学推理能力，尤其在处理未见过的难题时效果显著。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03820

arXiv 提交日期: 2026-03-04

reinforcement learning systems model training interactive recommendation fairness state representation hierarchical rl diffusion models

公平始于状态：为交互式推荐中的分层强化学习净化潜在偏好 / Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

1️⃣ 一句话总结

这篇论文提出了一种新框架，通过去噪技术从有偏的交互数据中还原用户的真实偏好状态，并利用分层强化学习来同时优化推荐的准确性和公平性，从而打破热门物品越推越多的恶性循环。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16165

arXiv 提交日期: 2026-02-18

llm agents reinforcement learning hierarchical rl credit assignment multi-turn decision making long-horizon tasks plan-execute framework

HiPER：面向大语言模型智能体的显式信用分配分层强化学习 / HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents

1️⃣ 一句话总结

这篇论文提出了一种名为HiPER的分层强化学习新框架，通过将智能体的决策过程明确分解为‘高层规划’和‘底层执行’两个层级，并设计了一种创新的信用分配方法，有效解决了大语言模型在需要多轮决策、奖励稀疏的复杂任务中训练不稳定和效率低下的问题，在多个交互式基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19452

arXiv 提交日期: 2026-01-27

reinforcement learning agents model training hierarchical rl imitation learning normalizing flow policy composition exploration

APC-RL：通过自适应策略组合超越数据驱动的行为先验 / APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition

1️⃣ 一句话总结

这篇论文提出了一种名为自适应策略组合（APC）的分层强化学习方法，它能够智能地利用可能不完美或与任务不完全匹配的演示数据来加速学习，在数据有用时加以利用和优化，在数据有偏差时则灵活规避，从而在各种数据质量下都能实现稳健且高效的学习。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20605

arXiv 提交日期: 2025-12-23

reinforcement learning agents model training hierarchical rl autoregressive models temporal abstraction latent actions internal reinforcement learning

自回归模型中涌现的时间抽象能力实现分层强化学习 / Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘内部强化学习’的新方法，通过让模型在其内部表示层面直接学习并执行一连串有意义的‘动作组合’（而非单个动作），从而解决了传统方法在奖励稀疏时学习效率低下的问题，使得大型预训练模型能更高效地完成复杂的层次化任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04562

1️⃣ 一句话总结

arXiv ID: 2605.28127

1️⃣ 一句话总结

arXiv ID: 2605.05389

1️⃣ 一句话总结

arXiv ID: 2604.26833

1️⃣ 一句话总结

arXiv ID: 2604.14032

1️⃣ 一句话总结

arXiv ID: 2603.16060

1️⃣ 一句话总结

arXiv ID: 2603.03820

1️⃣ 一句话总结

arXiv ID: 2602.16165

1️⃣ 一句话总结

arXiv ID: 2601.19452

1️⃣ 一句话总结

arXiv ID: 2512.20605

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04562 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.05389 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14032 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16060 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03820 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19452 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20605 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04562

arXiv ID: 2605.28127

arXiv ID: 2605.05389

arXiv ID: 2604.26833

arXiv ID: 2604.14032

arXiv ID: 2603.16060

arXiv ID: 2603.03820

arXiv ID: 2602.16165

arXiv ID: 2601.19452

arXiv ID: 2512.20605