arXiv最新AI论文速览速学

🔍

标签: #continuous control ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Representation Learning Enables Scalable Multitask Deep Reinforcement Learning 06-06

arXiv ID: 2606.05555

arXiv 提交日期: 2026-06-04

reinforcement learning model training machine learning representation learning multitask rl actor-critic scalability continuous control

表示学习实现可扩展的多任务深度强化学习 / Representation Learning Enables Scalable Multitask Deep Reinforcement Learning

1️⃣ 一句话总结

本文提出，实现高效的多任务强化学习的关键并非复杂的规划或模型预测，而是通过辅助预测任务来学习更好的状态表示，并基于此设计了一种简单无模型的算法MR.Q，在多个连续控制任务上超越了现有世界模型方法，兼具高性能和高计算效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19503

arXiv 提交日期: 2026-05-19

reinforcement learning robotics continuous control hexapod quadruped reward function locomotion

ARC-RL：受《ARC Raiders》启发的强化学习试验场 / ARC-RL: A Reinforcement Learning Playground Inspired by ARC Raiders

1️⃣ 一句话总结

本文提出了ARC-RL，一个基于《ARC Raiders》游戏生物设计的强化学习测试平台，包含四种独特形态的机器人及其统一奖励函数，并用多种算法验证了该平台在应对多样化形态和动画风格约束时的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27667

arXiv 提交日期: 2026-04-30

reinforcement learning robotics machine learning tabular foundation model policy optimization continuous control global exploration sample efficiency

表格基础模型能否指导机器人策略学习中的探索？ / Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?

1️⃣ 一句话总结

本文提出了一种名为TFM-S3的混合搜索方法，通过间歇性全局搜索与局部更新结合，并利用预训练的表格基础模型预测策略表现，从而在有限的试错次数下大幅提升机器人连续控制策略学习的探索效率和最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02088

arXiv 提交日期: 2026-04-02

computer vision model training aigc image editing rectified flow training-free fidelity preservation continuous control

FlowSlider：通过保真度-导向分解实现无需训练的图像连续编辑 / FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、通过滑块就能平滑控制图像编辑强度的方法，它巧妙地将编辑过程分解为保持原图特征的‘保真项’和驱动内容变化的‘导向项’，从而实现既稳定又高质量的连续编辑效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25728

arXiv 提交日期: 2026-03-26

computer vision aigc model training facial expression editing diffusion models disentanglement continuous control identity preservation

PixelSmile：迈向细粒度面部表情编辑 / PixelSmile: Toward Fine-Grained Facial Expression Editing

1️⃣ 一句话总结

这篇论文提出了一个名为PixelSmile的扩散模型框架，通过构建新数据集和采用对称联合训练等方法，解决了细粒度面部表情编辑中语义混淆的难题，实现了对表情强度连续、精确且不改变人物身份的线性控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17468

arXiv 提交日期: 2026-03-18

reinforcement learning llm agents soft actor-critic exploration action guidance sample efficiency continuous control

基于大语言模型动作级指导的高效软演员-评论家连续控制算法 / Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control

1️⃣ 一句话总结

这篇论文提出了一种名为GuidedSAC的新强化学习方法，它巧妙地利用大语言模型作为‘智能导师’，在训练过程中为智能体提供动作级别的实时指导，从而在复杂任务中实现更快速、更高效的学习，同时保证了算法的理论稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12110

arXiv 提交日期: 2026-03-12

reinforcement learning agents model training robust rl adversarial training continuous control minimax optimization policy gradient

驯服对抗者：通过分数目标实现稳定的极小极大深度确定性策略梯度 / Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

1️⃣ 一句话总结

这篇论文提出了一种新的强化学习方法，通过引入一个平衡任务表现与干扰强度的分数目标，让智能体在与模拟“对手”的对抗训练中，学习到更稳定、更能抵抗环境干扰和模型不确定性的控制策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08287

arXiv 提交日期: 2026-03-09

reinforcement learning theory machine learning bayesian regret gaussian processes posterior sampling continuous control regret bounds

基于高斯过程的连续控制后验采样强化学习：无界状态空间的次线性遗憾界 / Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

1️⃣ 一句话总结

这篇论文为一种基于高斯过程进行后验采样的强化学习算法提供了严格的理论分析，证明了即使在状态空间无限的情况下，该算法也能实现次线性的性能遗憾上界，解决了先前理论工作的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03826

arXiv 提交日期: 2026-02-03

computer vision model training aigc diffusion models image editing video editing guidance scale continuous control

通过自适应原点引导实现对编辑模型的连续控制 / Continuous Control of Editing Models via Adaptive-Origin Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为AdaOr的新方法，它能让用户像调节音量一样平滑地控制AI对图片或视频的编辑强度，解决了现有模型要么不改、要么全改的‘跳跃式’编辑问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21778

arXiv 提交日期: 2026-01-29

agents reinforcement learning model training ann-to-snn conversion spiking neural networks continuous control error amplification reinforcement learning

误差放大效应限制了脉冲神经网络在连续控制任务中的转换性能 / Error Amplification Limits ANN-to-SNN Conversion in Continuous Control

1️⃣ 一句话总结

这篇论文发现，将人工神经网络转换为脉冲神经网络用于连续控制任务时，微小的动作近似误差会随时间累积并放大，导致性能严重下降，并为此提出了一种无需额外训练、通过跨步传递剩余膜电位来抑制误差的方法，有效恢复了转换后的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.05555

1️⃣ 一句话总结

arXiv ID: 2605.19503

1️⃣ 一句话总结

arXiv ID: 2604.27667

1️⃣ 一句话总结

arXiv ID: 2604.02088

1️⃣ 一句话总结

arXiv ID: 2603.25728

1️⃣ 一句话总结

arXiv ID: 2603.17468

1️⃣ 一句话总结

arXiv ID: 2603.12110

1️⃣ 一句话总结

arXiv ID: 2603.08287

1️⃣ 一句话总结

arXiv ID: 2602.03826

1️⃣ 一句话总结

arXiv ID: 2601.21778

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.05555 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19503 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27667 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02088 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25728 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12110 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03826 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21778 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.05555

arXiv ID: 2605.19503

arXiv ID: 2604.27667

arXiv ID: 2604.02088

arXiv ID: 2603.25728

arXiv ID: 2603.17468

arXiv ID: 2603.12110

arXiv ID: 2603.08287

arXiv ID: 2602.03826

arXiv ID: 2601.21778