arXiv ID:
2603.03068
基于符号奖励机的强化学习 / Reinforcement Learning with Symbolic Reward Machines
1️⃣ 一句话总结
这篇论文提出了一种名为‘符号奖励机’的新方法,它能自动理解强化学习任务的目标,无需人工预先设定规则,在保持高性能的同时让任务目标对用户更透明易懂。
基于符号奖励机的强化学习 / Reinforcement Learning with Symbolic Reward Machines
这篇论文提出了一种名为‘符号奖励机’的新方法,它能自动理解强化学习任务的目标,无需人工预先设定规则,在保持高性能的同时让任务目标对用户更透明易懂。
VisionCreator:一个具备理解、思考、规划和创造能力的原生视觉生成智能体模型 / VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation
这篇论文提出了一个名为VisionCreator的新型智能体模型,它通过一个端到端的可学习框架,将理解、思考、规划和创造能力融为一体,能够自主完成复杂的视觉内容创作任务,并且在多项测试中表现优于更大的闭源模型。
QFlowNet:基于生成流网络的快速、多样且高效的酉矩阵合成 / QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks
这篇论文提出了一个名为QFlowNet的新框架,它结合了生成流网络和Transformer模型,能够快速、高效地为量子计算机生成多种多样的高质量量子门电路,解决了传统强化学习方法训练慢、结果单一的问题。
面向机器人集群的生成对抗模仿学习:从人类演示与训练策略中学习 / Generative adversarial imitation learning for robot swarms: Learning from human demonstrations and trained policies
这篇论文提出了一个基于生成对抗模仿学习的框架,让机器人集群能够通过观察人类演示或已有策略的演示来学习集体行为,并在仿真和真实机器人实验中成功复现了与演示性能相当、视觉上可识别的群体行为。
扩展任务而非样本:通过多任务模型强化学习掌握人形机器人控制 / Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning
这篇论文提出了一种新的机器人学习思路,认为与其在单个任务上收集海量数据,不如让机器人同时学习多种任务,并基于此开发了一种高效的在线学习算法,在复杂的人形机器人控制任务上取得了优异性能且大大节省了训练数据。
保形策略控制 / Conformal Policy Control
这篇论文提出了一种名为‘保形策略控制’的新方法,它能让AI智能体在探索新行为以提升性能时,通过数学保证始终将安全风险控制在用户设定的可接受范围内,从而解决了高风险场景下安全与探索难以兼顾的难题。
CharacterFlywheel:在生产环境中规模化迭代改进具有吸引力和可控性的大语言模型 / CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production
该论文介绍了一套名为CharacterFlywheel的迭代优化流程,通过在Instagram、WhatsApp和Messenger等社交应用中持续收集用户数据并改进模型,成功提升了聊天机器人的用户参与度和指令遵循能力。
离散领域中的扩散模型预测控制:可行性约束、规划视野效应与价值函数对齐——以俄罗斯方块为例研究 / Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris
这项研究以俄罗斯方块为例,揭示了在离散组合决策问题中使用扩散模型进行规划时,必须通过可行性约束过滤无效动作、谨慎选择规划视野长度,并注意预训练价值评估模型可能存在的偏差,否则会导致规划性能下降。
LongRLVR:长上下文强化学习需要可验证的上下文奖励 / LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards
这篇论文提出了一种名为LongRLVR的新方法,通过为大型语言模型在长文本任务中增加一个可验证的上下文奖励信号,有效解决了传统方法因奖励信号稀疏而难以学习从外部信息中寻找证据的问题,从而显著提升了模型在长上下文推理任务上的表现。
通过强化学习引导的网格优化加速偏微分方程代理模型训练 / Accelerating PDE Surrogates via RL-Guided Mesh Optimization
这篇论文提出了一种名为RLMesh的新方法,它利用强化学习智能地为偏微分方程模拟动态分配计算资源,将网格点集中在最关键的求解区域,从而在保证精度的前提下,大幅减少了训练深度学习代理模型所需的高成本模拟次数。
请先 登录 后再提交论文