📄 论文总结
VLA-4D:将四维感知融入视觉-语言-动作模型以实现时空连贯的机器人操作 / VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
1️⃣ 一句话总结
这项研究提出了一种新型视觉-语言-动作模型VLA-4D,通过引入时间维度与空间位置融合的四维感知机制,使机器人能够执行更流畅连贯的时空动作规划与操作。
请先 登录 后再提交论文
VLA-4D:将四维感知融入视觉-语言-动作模型以实现时空连贯的机器人操作 / VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
这项研究提出了一种新型视觉-语言-动作模型VLA-4D,通过引入时间维度与空间位置融合的四维感知机制,使机器人能够执行更流畅连贯的时空动作规划与操作。
Mantis:一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型,它通过解耦视觉预见模块来减轻主干网络的负担,从而在保持强大语言理解和推理能力的同时,显著提升了机器人任务执行的准确性和泛化能力。
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。
WMPO:基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
这项研究提出了一种名为WMPO的新方法,让机器人能够通过内部模拟学习改进自身动作,无需在真实环境中反复试错,从而更高效地掌握复杂操作技能并具备自我纠错能力。
引导视觉-语言-动作模型未来发展的十大开放挑战 / 10 Open Challenges Steering the Future of Vision-Language-Action Models
这篇论文指出了视觉-语言-动作模型在迈向广泛应用过程中需要解决的十大关键挑战,包括多模态理解、推理能力、数据获取和安全性等,并探讨了推动其发展的新兴技术趋势。
iFlyBot-VLA 技术报告 / iFlyBot-VLA Technical Report
这篇论文提出了一个名为iFlyBot-VLA的新型视觉-语言-动作大模型,它通过结合隐式高层意图和显式低层动态的双重动作表示框架,有效提升了机器人在复杂操作任务中的感知、推理和执行能力。
统一扩散VLA:通过联合离散去噪扩散过程的视觉-语言-动作模型 / Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
这篇论文提出了一种新型的视觉-语言-动作模型,通过一个联合的扩散过程同步生成未来图像和预测机器人动作,实现了多任务协同优化,在多个基准测试中取得了领先性能且推理速度更快。
EBT-策略:能量模型解锁涌现的物理推理能力 / EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
这篇论文提出了一种名为EBT-Policy的新型能量模型架构,它在机器人任务中比当前主流的扩散策略表现更好、计算效率更高,并且展现出无需额外训练就能从错误中自主恢复等智能行为。
不要蒙蔽你的视觉语言动作模型:对齐视觉表征以提升分布外泛化能力 / Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization
这项研究发现,在将视觉语言模型微调为视觉语言动作模型时,简单的动作微调会损害原有的视觉理解能力,并提出了一种简单有效的方法来保持视觉表征质量,从而提升模型在未知场景下的泛化性能。
VLA^2:通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
这项研究提出了一种名为VLA^2的新型智能体框架,通过整合网络检索和物体检测等外部模块,有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率,在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。