引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
1️⃣ 一句话总结
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
请先 登录 后再提交论文
引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
DiG-Flow:基于差异引导的流匹配方法,用于构建鲁棒的视觉-语言-动作模型 / DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
这篇论文提出了一种名为DiG-Flow的新方法,它通过计算和利用观测与动作特征之间的分布差异来引导模型训练,从而显著提升了视觉-语言-动作模型在复杂任务和场景变化下的鲁棒性和性能。
SwiftVLA:以最小开销为轻量级视觉-语言-动作模型解锁时空动态理解能力 / SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
这篇论文提出了一种名为SwiftVLA的新型架构,它通过创新的融合令牌和掩码重建训练方法,让轻量级的视觉-语言-动作模型在保持高效率的同时,也能像大模型一样理解视频中的时空动态信息,从而在边缘设备上实现高性能、低延迟的机器人控制。
动作分块中的混合视野策略 / Mixture of Horizons in Action Chunking
这篇论文提出了一种名为‘混合视野’的新策略,通过让机器人同时学习长远的全局规划和精细的局部控制,解决了现有视觉-语言-动作模型在复杂任务中难以兼顾长期目标与短期精准度的核心矛盾,从而显著提升了机器人的操作性能和效率。
GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
VLASH:通过未来状态感知的异步推理实现实时视觉-语言-动作模型 / VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
这篇论文提出了一个名为VLASH的通用异步推理框架,它通过预测机器人执行动作时的未来状态,解决了现有视觉-语言-动作模型在实时控制中反应慢、动作卡顿的问题,从而在不增加额外开销或改变模型结构的情况下,实现了流畅、准确且低延迟的机器人控制,甚至能完成打乒乓球等快速反应任务。
DualVLA:通过部分解耦推理与行动构建可泛化的具身智能体 / DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
这篇论文提出了一个名为DualVLA的新方法,通过巧妙的数据筛选和双教师蒸馏策略,解决了通用视觉-语言-行动模型在增强推理能力时动作性能下降的问题,从而在保持强大推理能力的同时,实现了更精准的动作执行。
MobileVLA-R1:强化移动机器人的视觉-语言-动作整合 / MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
这篇论文提出了一种名为MobileVLA-R1的新方法,通过结合思维链数据和强化学习,有效提升了四足机器人根据语言指令执行连续动作的稳定性和泛化能力。
通过预测强化行动策略 / Reinforcing Action Policies by Prophesying
这篇论文提出了一种名为ProphRL的新方法,通过构建一个能够预测动作结果的视频模型和专门的强化学习技术,有效提升了视觉-语言-动作策略的适应性和成功率,无需依赖昂贵的真实机器人实验。
RynnVLA-002:统一的视觉-语言-动作与世界模型 / RynnVLA-002: A Unified Vision-Language-Action and World Model
这篇论文提出了一个将视觉-语言-动作模型与世界模型相结合的统一框架,通过让两个模型相互增强,显著提升了机器人在模拟和真实环境中的任务成功率。