arXiv最新AI论文速览速学

🔍

标签: #robot manipulation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Making Foresight Actionable: Repurposing Representation Alignment in World Action Models 06-11

arXiv ID: 2601.10781

arXiv 提交日期: 2026-01-15

computer vision multi-modal robotics optical flow prediction vision-language model diffusion models robot manipulation video generation

未来光流预测改进机器人控制与视频生成 / Future Optical Flow Prediction Improves Robot Control & Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FOFPred的新模型，它结合了视觉语言模型和扩散模型，能够根据语言指令预测未来的物体运动趋势（光流），并成功应用于机器人操控和视频生成两个不同领域，展示了从海量网络视频数据中学习通用运动预测的潜力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05241

arXiv 提交日期: 2026-01-08

robotics multi-modal model training video generation data augmentation robot manipulation visual prompting diffusion models

RoboVIP：通过视觉身份提示生成多视角视频以增强机器人操作 / RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

1️⃣ 一句话总结

这篇论文提出了一种名为RoboVIP的新方法，它通过向图像生成模型提供示例图片作为视觉引导，来批量生成多视角、时间连贯的机器人操作视频数据，从而有效提升机器人策略模型的训练效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.09851

arXiv 提交日期: 2025-12-10

robotics multi-modal systems tactile sensing imitation learning robot manipulation sensor design multimodal perception

用于学习多模态机器人操作的同时触觉-视觉感知 / Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

1️⃣ 一句话总结

这项研究提出了一种名为TacThru的新型传感器和一个名为TacThru-UMI的学习框架，通过同时捕捉触觉和视觉信息并利用它们来训练机器人，显著提升了机器人在复杂现实任务中的操作成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.09928

arXiv 提交日期: 2025-12-10

robotics multi-modal model training vision-language-action temporal reasoning motion representation long-horizon tasks robot manipulation

HiF-VLA：基于运动向量的双向时序推理视觉语言动作模型 / HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

1️⃣ 一句话总结

本文提出了HiF-VLA框架，通过将运动视为紧凑的时序表示，并整合后见、洞见和先见进行双向时序推理，有效解决了现有视觉语言动作模型因时间近视导致的长期任务连贯性问题，并在多个基准测试和真实世界任务中展现出卓越性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.08405

arXiv 提交日期: 2025-12-09

robotics multi-modal model training audio world models latent flow matching robot manipulation multimodal reasoning future prediction

从音频世界模型中学习机器人操作 / Learning Robot Manipulation from Audio World Models

1️⃣ 一句话总结

这篇论文提出了一种能预测未来音频的生成模型，帮助机器人通过聆听和理解声音的节奏与物理特性，更好地完成需要听觉判断的复杂操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06963

arXiv 提交日期: 2025-12-07

robotics multi-modal model training video generation vision-language-action diffusion transformer robot manipulation visual imagination

VideoVLA：视频生成模型可作为通用机器人操作器 / VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

1️⃣ 一句话总结

这篇论文提出了VideoVLA方法，通过将大型视频生成模型改造为机器人操作器，使其能根据语言指令和当前图像，同时预测未来的动作序列和视觉结果，从而显著提升了机器人在新任务、新物体和新环境中的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16175

arXiv 提交日期: 2025-11-20

multi-modal robotics model training vision-language-action visual foresight diffusion transformer robot manipulation instruction following

Mantis：一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

1️⃣ 一句话总结

这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型，它通过解耦视觉预见模块来减轻主干网络的负担，从而在保持强大语言理解和推理能力的同时，显著提升了机器人任务执行的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15605

arXiv 提交日期: 2025-11-19

robotics reinforcement learning multi-modal vision-language-action policy optimization self-referential learning latent representations robot manipulation

自参考策略优化：面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

1️⃣ 一句话总结

这项研究提出了一种自参考策略优化方法，通过利用模型自身成功轨迹作为参考来为失败尝试打分，无需额外演示或人工设计奖励，显著提升了机器人操作任务的训练效率和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.09515

arXiv 提交日期: 2025-11-12

robotics multi-modal reinforcement learning world models vision-language-action policy optimization sample efficiency robot manipulation

WMPO：基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

1️⃣ 一句话总结

这项研究提出了一种名为WMPO的新方法，让机器人能够通过内部模拟学习改进自身动作，无需在真实环境中反复试错，从而更高效地掌握复杂操作技能并具备自我纠错能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13054

arXiv 提交日期: 2025-10-15

robotics multi-modal model training vision-language-action robot manipulation benchmark text representation vlm adaptation

VLA-0：零修改构建顶尖视觉语言动作模型 / VLA-0: Building State-of-the-Art VLAs with Zero Modification

1️⃣ 一句话总结

这篇论文提出了一种名为VLA-0的简单方法，通过直接将机器人动作表示为文本，无需修改现有视觉语言模型，就在多个机器人操作基准测试中超越了更复杂的模型，证明了简洁设计的强大潜力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.10781

1️⃣ 一句话总结

arXiv ID: 2601.05241

1️⃣ 一句话总结

arXiv ID: 2512.09851

1️⃣ 一句话总结

arXiv ID: 2512.09928

1️⃣ 一句话总结

arXiv ID: 2512.08405

1️⃣ 一句话总结

arXiv ID: 2512.06963

1️⃣ 一句话总结

arXiv ID: 2511.16175

1️⃣ 一句话总结

arXiv ID: 2511.15605

1️⃣ 一句话总结

arXiv ID: 2511.09515

1️⃣ 一句话总结

arXiv ID: 2510.13054

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.10781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05241 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.09851 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.09928 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.08405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06963 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15605 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.09515 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13054 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.10781

arXiv ID: 2601.05241

arXiv ID: 2512.09851

arXiv ID: 2512.09928

arXiv ID: 2512.08405

arXiv ID: 2512.06963

arXiv ID: 2511.16175

arXiv ID: 2511.15605

arXiv ID: 2511.09515

arXiv ID: 2510.13054