引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
1️⃣ 一句话总结
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
请先 登录 后再提交论文
引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
用于配备超限肢体人形机器人步态的层次化框架 / A Hierarchical Framework for Humanoid Locomotion with Supernumerary Limbs
这篇论文提出了一种分层控制框架,通过结合基于学习的步态生成和基于模型的动态平衡,有效解决了人形机器人在安装额外肢体后因扰动而导致的稳定性难题。
DiG-Flow:基于差异引导的流匹配方法,用于构建鲁棒的视觉-语言-动作模型 / DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
这篇论文提出了一种名为DiG-Flow的新方法,它通过计算和利用观测与动作特征之间的分布差异来引导模型训练,从而显著提升了视觉-语言-动作模型在复杂任务和场景变化下的鲁棒性和性能。
SimScale:通过大规模真实世界仿真学习驾驶 / SimScale: Learning to Drive via Real-World Simulation at Scale
这篇论文提出了一个名为SimScale的新型仿真框架,它能够利用现有的真实驾驶数据,通过神经渲染和反应式环境生成大量高保真、多样化的模拟驾驶场景,并配合一种伪专家轨迹生成机制来提供训练监督,从而显著提升自动驾驶规划模型在安全关键和罕见场景下的鲁棒性与泛化能力,且其性能提升仅需增加模拟数据即可平滑扩展。
MG-Nav:基于稀疏空间记忆的双尺度视觉导航 / MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory
这篇论文提出了一个名为MG-Nav的双尺度视觉导航框架,它通过一个紧凑的稀疏空间记忆图来统一全局路径规划和局部避障控制,无需针对特定场景进行训练,就能在陌生环境中实现高效、鲁棒的导航。
SwiftVLA:以最小开销为轻量级视觉-语言-动作模型解锁时空动态理解能力 / SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
这篇论文提出了一种名为SwiftVLA的新型架构,它通过创新的融合令牌和掩码重建训练方法,让轻量级的视觉-语言-动作模型在保持高效率的同时,也能像大模型一样理解视频中的时空动态信息,从而在边缘设备上实现高性能、低延迟的机器人控制。
动作分块中的混合视野策略 / Mixture of Horizons in Action Chunking
这篇论文提出了一种名为‘混合视野’的新策略,通过让机器人同时学习长远的全局规划和精细的局部控制,解决了现有视觉-语言-动作模型在复杂任务中难以兼顾长期目标与短期精准度的核心矛盾,从而显著提升了机器人的操作性能和效率。
GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
VLASH:通过未来状态感知的异步推理实现实时视觉-语言-动作模型 / VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
这篇论文提出了一个名为VLASH的通用异步推理框架,它通过预测机器人执行动作时的未来状态,解决了现有视觉-语言-动作模型在实时控制中反应慢、动作卡顿的问题,从而在不增加额外开销或改变模型结构的情况下,实现了流畅、准确且低延迟的机器人控制,甚至能完成打乒乓球等快速反应任务。
DualVLA:通过部分解耦推理与行动构建可泛化的具身智能体 / DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
这篇论文提出了一个名为DualVLA的新方法,通过巧妙的数据筛选和双教师蒸馏策略,解决了通用视觉-语言-行动模型在增强推理能力时动作性能下降的问题,从而在保持强大推理能力的同时,实现了更精准的动作执行。