arXiv最新AI论文速览速学

🔍

标签: #robot manipulation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: Making Foresight Actionable: Repurposing Representation Alignment in World Action Models 06-11

arXiv ID: 2606.12217

arXiv 提交日期: 2026-06-10

robotics computer vision machine learning world action model representation alignment robot manipulation video diffusion action grounding

让预见变为可行动：在世界动作模型中重新利用表征对齐 / Making Foresight Actionable: Repurposing Representation Alignment in World Action Models

1️⃣ 一句话总结

这篇论文发现，用于机器人操作的视频预测模型虽然能生成逼真的未来场景，但从中提取准确动作却常失败，原因是模型隐藏状态更适合视觉重建而非动作控制；为此，作者提出AGRA方法，通过将视频扩散特征与基础视觉编码器的语义表征对齐，强制模型关注与任务相关的交互区域，从而显著提升了动作定位、物体理解和抗干扰能力，使机器人策略在多种环境下更稳定可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06491

arXiv 提交日期: 2026-06-04

robotics multi-modal behavior vision-language-action speed control robot manipulation trajectory augmentation policy learning

TempoVLA：学习速度可控的视觉-语言-动作策略 / TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

1️⃣ 一句话总结

本文提出TempoVLA，通过一个能根据速度条件调整动作大小的策略，让机器人视觉-语言-动作模型既能快速执行低风险操作，也能在危险接触时放慢速度，从而首次实现灵活的双向速度控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05737

arXiv 提交日期: 2026-06-04

machine learning robotics vision-language-action model one-step action generation diffusion policy robot manipulation

让它简单：面向视觉-语言-动作模型的单步动作生成 / Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models

1️⃣ 一句话总结

本文发现，在视觉-语言-动作模型中，由于动作预测的条件复杂而输出维度较低，直接用标准扩散训练并偏向高噪声阶段，就能实现高效的单步动作生成，无需像图像生成那样依赖复杂的多步降噪或蒸馏技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01847

arXiv 提交日期: 2026-06-01

robotics generative model machine learning diffusion policy se(3) manifold score matching vision-language-action robot manipulation

我们撒的谎：通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误 / The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space

1️⃣ 一句话总结

本文指出，现有机器人操控模型错误地将三维空间中的旋转和平移运动当作普通数字向量处理，导致动作不稳定且效率低下；作者提出了一种名为“李扩散演员”的新方法，通过让模型直接在旋转和平移的数学结构内部生成动作，从而避免了这些错误，在模拟和实际任务中都取得了更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25539

arXiv 提交日期: 2026-03-26

computer vision robotics systems articulation perception egocentric video 3d scene understanding hand-object interaction robot manipulation

PAWS：基于大规模第一人称视角视频的野外物体关节感知 / PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos

1️⃣ 一句话总结

这篇论文提出了一种名为PAWS的新方法，它能够直接从海量、未经标注的第一人称视角视频中，通过分析人手与物体的交互，自动学习并提取出抽屉、柜门等可活动物体的运动方式和结构，有效解决了以往方法依赖大量人工标注数据的瓶颈，并证明了其在机器人操作等下游任务中的实用价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20323

arXiv 提交日期: 2026-02-23

robotics agents model evaluation physical reasoning test-time learning memory framework vision-language models robot manipulation

通过交互学习物理原理：基于测试时记忆的自进化规划 / Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

1️⃣ 一句话总结

这篇论文提出了一个名为PhysMem的记忆框架，它能让机器人像人一样，在实际操作中通过‘动手试错’来学习具体的物理规律（比如不同球的滚动方式或石头的稳定性），并将验证过的经验转化为知识库，从而在环境变化时做出更灵活、更可靠的决策，而不是死记硬背过去的经验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10943

arXiv 提交日期: 2026-02-11

computer vision robotics model training neural radiance fields 3d reconstruction scene representation robot manipulation egocentric vision

从二维观测中学习可泛化的三维场景表示 / Towards Learning a Generalizable 3D Scene Representation from 2D Observations

1️⃣ 一句话总结

这篇论文提出了一种新的可泛化神经辐射场方法，能够仅通过机器人第一视角的二维图像，直接预测出全局坐标系下的三维空间占用情况，无需针对新场景进行额外训练，从而更好地支持机器人抓取等任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18692

arXiv 提交日期: 2026-01-26

robotics multi-modal model training vision-language-action robot manipulation foundation model real-world data generalizability

一个实用的视觉-语言-动作基础模型 / A Pragmatic VLA Foundation Model

1️⃣ 一句话总结

这篇论文提出了一个名为LingBot-VLA的实用机器人基础模型，它利用大量真实世界数据训练，在多种机器人平台上都能出色地完成不同任务，并且训练效率高、代码开源，旨在推动机器人学习领域的实际应用和发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16207

arXiv 提交日期: 2026-01-22

robotics computer vision multi-modal vision-language-action spatial reasoning training-free intervention robot manipulation affinity guidance

IVRA：通过基于提示的无训练引导改进机器人动作策略中的视觉-标记关系 / IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为IVRA的轻量级、无需额外训练的方法，它通过巧妙利用视觉模型中已有的空间关联信息来增强机器人对视觉场景的几何理解，从而在多种机器人操作任务上稳定提升了动作策略的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14133

arXiv 提交日期: 2026-01-20

robotics multi-modal model training vision-language-action embodied ai catastrophic forgetting mixture-of-transformers robot manipulation

TwinBrainVLA：通过非对称混合变换器释放通用视觉语言模型在具身任务中的潜力 / TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为TwinBrainVLA的新模型架构，它通过一个‘左脑’保持通用视觉理解能力，同时用一个可训练的‘右脑’专门学习机器人精细动作，从而解决了机器人控制任务中模型既要懂世界又要会动手的冲突，在保持高水平语义理解的同时实现了更精确的操控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12217

1️⃣ 一句话总结

arXiv ID: 2606.06491

1️⃣ 一句话总结

arXiv ID: 2606.05737

1️⃣ 一句话总结

arXiv ID: 2606.01847

1️⃣ 一句话总结

arXiv ID: 2603.25539

1️⃣ 一句话总结

arXiv ID: 2602.20323

1️⃣ 一句话总结

arXiv ID: 2602.10943

1️⃣ 一句话总结

arXiv ID: 2601.18692

1️⃣ 一句话总结

arXiv ID: 2601.16207

1️⃣ 一句话总结

arXiv ID: 2601.14133

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12217 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06491 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01847 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25539 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10943 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18692 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14133 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12217

arXiv ID: 2606.06491

arXiv ID: 2606.05737

arXiv ID: 2606.01847

arXiv ID: 2603.25539

arXiv ID: 2602.20323

arXiv ID: 2602.10943

arXiv ID: 2601.18692

arXiv ID: 2601.16207

arXiv ID: 2601.14133