arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings 03-17

arXiv ID: 2603.07629

arXiv 提交日期: 2026-03-08

robotics reinforcement learning systems exoskeleton control biomechanics sim-to-real joint moment reduction gait analysis

通过仿真学习降低生物关节力矩的外骨骼控制 / Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

1️⃣ 一句话总结

这篇论文提出了一种基于强化学习的仿真训练框架，用于开发能有效降低人体关节负荷的外骨骼辅助策略，并通过公开步态数据集验证了该控制方法在力矩层面的有效性，同时指出了其在关节功率匹配方面仍需改进的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.06397

arXiv 提交日期: 2026-03-06

reinforcement learning natural language processing model training retrieval set-valued objectives diffusion models efficiency synthetic data

通过强化学习编译扩散实现高效、属性对齐的扇出检索 / Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为R4T的新方法，它先用强化学习训练一个大语言模型来优化检索结果的集合属性（如多样性），然后利用该模型生成训练数据，最终训练一个轻量级的扩散模型来高效地一次性检索出满足复杂属性要求的物品集合，从而在保证质量的同时大幅提升了检索速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05016

arXiv 提交日期: 2026-03-05

medical llm agents computational psychiatry hybrid framework reinforcement learning decision-making cognitive models

BioLLMAgent：一个增强结构可解释性的混合框架，用于模拟计算精神病学中的人类决策 / BioLLMAgent: A Hybrid Framework with Enhanced Structural Interpretability for Simulating Human Decision-Making in Computational Psychiatry

1️⃣ 一句话总结

这篇论文提出了一个名为BioLLMAgent的混合智能体框架，它巧妙结合了传统强化学习模型的结构可解释性与大语言模型的行为真实性，为精神病学研究提供了一个既能模拟人类复杂决策行为、又能清晰解释其内部机制的‘计算沙盒’，并成功用于模拟治疗干预和评估群体干预效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04920

arXiv 提交日期: 2026-03-05

machine learning agents systems bid optimization decision transformer dual-process control online advertising reinforcement learning

基于知识引导与双过程控制的在线广告竞价优化 / Knowledge-informed Bidding with Dual-process Control for Online Advertising

1️⃣ 一句话总结

本文提出了一种名为KBD的新方法，通过引入人类专家知识作为指导、使用决策变换器进行全局优化，并结合快速规则与深度模型的双过程控制，有效解决了传统黑盒竞价模型在数据稀疏、短视决策和场景适应方面的不足，显著提升了在线广告的竞价效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04918

arXiv 提交日期: 2026-03-05

llm reinforcement learning model training policy optimization trust regions proximal policy optimization entropy collapse exploration bottleneck

BandPO：通过概率感知边界连接信任区域与比率裁剪，用于大语言模型强化学习 / BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为BandPO的新方法，通过引入一个能根据动作概率动态调整更新范围的‘Band’操作符，解决了现有强化学习算法中固定更新上限会抑制低概率但高价值策略探索的问题，从而在提升模型性能的同时有效防止了策略多样性的过早丧失。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04833

arXiv 提交日期: 2026-03-05

multi-agents reinforcement learning agents multi-agent communication credit assignment decentralized execution temporal grouping counterfactual advantage

SCoUT：多智能体强化学习中基于效用引导时序分组的可扩展通信 / SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为SCoUT的新方法，通过动态、软性地将智能体分组并利用反事实推理来精准分配通信功劳，从而让多智能体系统在学习何时、与谁通信时更高效、更可扩展，同时保持去中心化执行的优点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05256

arXiv 提交日期: 2026-03-05

multi-modal model training natural language processing visual question answering knowledge-based reasoning curriculum learning reinforcement learning data generation

Wiki-R1：通过数据和采样课程激励基于知识的视觉问答中的多模态推理 / Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

1️⃣ 一句话总结

这篇论文提出了一种名为Wiki-R1的课程学习框架，通过生成可控难度的训练数据和智能采样策略，帮助多模态大语言模型更好地结合外部知识来回答图片相关的问题，从而在两项视觉问答基准测试上取得了新的最佳性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05218

arXiv 提交日期: 2026-03-05

agents reinforcement learning llm enterprise search synthetic data multi-task training benchmark tool use

KARL：基于强化学习的知识智能体 / KARL: Knowledge Agents via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种通过强化学习训练企业搜索智能体的新方法，它通过构建多能力评估基准、利用多样化搜索行为训练、生成高质量合成数据以及采用高效的迭代训练范式，最终实现了在成本、速度和准确性上都优于主流大模型的智能搜索系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05113

arXiv 提交日期: 2026-03-05

reinforcement learning robotics model training reward shaping curriculum learning multi-objective optimization sample reuse robotic control

解耦任务与行为：机器人强化学习中的两阶段奖励课程 / Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

1️⃣ 一句话总结

这篇论文提出了一种两阶段训练方法，先让机器人学会基本任务，再引导它优化行为细节（如节能），从而更简单有效地训练出性能更好、更稳定的机器人控制策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05066

arXiv 提交日期: 2026-03-05

reinforcement learning model training agents reward conditioning off-policy learning multi-task learning policy adaptation robust policies

奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘奖励条件化强化学习’的新方法，它能让一个智能体学会应对多种不同的任务目标，而不仅仅局限于训练时设定的单一奖励标准，从而提高了智能体的适应性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.07629

1️⃣ 一句话总结

arXiv ID: 2603.06397

1️⃣ 一句话总结

arXiv ID: 2603.05016

1️⃣ 一句话总结

arXiv ID: 2603.04920

1️⃣ 一句话总结

arXiv ID: 2603.04918

1️⃣ 一句话总结

arXiv ID: 2603.04833

1️⃣ 一句话总结

arXiv ID: 2603.05256

1️⃣ 一句话总结

arXiv ID: 2603.05218

1️⃣ 一句话总结

arXiv ID: 2603.05113

1️⃣ 一句话总结

arXiv ID: 2603.05066

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.07629 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.06397 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05016 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04920 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04918 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05256 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05218 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05113 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05066 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.07629

arXiv ID: 2603.06397

arXiv ID: 2603.05016

arXiv ID: 2603.04920

arXiv ID: 2603.04918

arXiv ID: 2603.04833

arXiv ID: 2603.05256

arXiv ID: 2603.05218

arXiv ID: 2603.05113

arXiv ID: 2603.05066