arXiv最新AI论文速览速学

🔍

标签: #robotic manipulation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object 03-06

arXiv ID: 2603.04913

arXiv 提交日期: 2026-03-05

robotics computer vision model evaluation adversarial attack visuomotor policy 3d object differentiable rendering robotic manipulation

超越平面贴片：通过视角一致的3D对抗物体探索视觉运动策略的脆弱性 / Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

1️⃣ 一句话总结

这篇论文提出了一种为3D物体生成视角一致性对抗纹理的方法，能有效欺骗机器人视觉控制系统，使其在动态视角和真实环境中持续做出错误决策，揭示了现有机器人策略在三维感知上的安全漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22862

arXiv 提交日期: 2026-02-26

robotics model training multi-modal grasping policy latent diffusion imitation learning robotic manipulation self-supervised learning

GraspLDP：通过潜在扩散实现可泛化的抓取策略 / GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

1️⃣ 一句话总结

这篇论文提出了一种结合抓取先验知识的潜在扩散策略，通过引导机器人动作生成和融入视觉重建目标，显著提升了模仿学习抓取策略的精确度和对不同物体、不同场景的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22056

arXiv 提交日期: 2026-02-25

robotics agents model training human-in-the-loop policy correction visuomotor policies robotic manipulation interactive learning

FlowCorrect：机器人操作中生成流策略的高效交互式修正 / FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为FlowCorrect的框架，它允许人类在机器人执行任务时，通过少量简单的姿势修正来即时调整其行为策略，从而显著提升机器人在复杂场景下的成功率，而无需重新训练整个模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20566

arXiv 提交日期: 2026-02-24

robotics multi-modal model training token pruning vision-language-action robotic manipulation efficiency multi-view

BFA++：面向多视角视觉语言动作模型的分层最佳特征感知令牌剪枝 / BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

1️⃣ 一句话总结

本文提出了一种名为BFA++的动态令牌剪枝框架，它通过分层策略智能筛选多视角图像中的关键视觉信息，从而在显著提升机器人操作模型计算速度的同时，保持甚至提高了任务执行的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14526

arXiv 提交日期: 2026-02-16

robotics reinforcement learning agents robotic manipulation deformable objects hierarchical agents skill decomposition knot tying

TWISTED-RL：无需人类演示的、用于打结的分层技能智能体 / TWISTED-RL: Hierarchical Skilled Agents for Knot-Tying without Human Demonstrations

1️⃣ 一句话总结

这篇论文提出了一种名为TWISTED-RL的新方法，它通过让多个专门的人工智能体合作并利用强化学习来规划抽象的打结动作，从而让机器人能够更高效、更成功地完成多种复杂绳结的打结任务，且完全不需要人类演示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11832

arXiv 提交日期: 2026-02-12

robotics model training multi-modal vision-language-action visual representation video predictive embedding robotic manipulation generalization

JEPA-VLA：视觉语言动作模型需要视频预测性嵌入 / JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

1️⃣ 一句话总结

这篇论文提出，通过在现有视觉语言动作模型中引入一种从视频中预训练得到的、能预测环境动态的视觉表示，可以显著提升机器人操作任务的学习效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09878

arXiv 提交日期: 2026-02-10

robotics computer vision model training 4d world model view-consistent generation test-time optimization rgbd prediction robotic manipulation

MVISTA-4D：用于机器人操作的具有测试时动作推理能力的视角一致四维世界模型 / MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为MVISTA-4D的新型机器人世界模型，它能够仅凭单视角的RGBD图像，就生成几何一致、多视角的未来场景动态，并通过一种创新的测试时动作优化方法，将这些预测的未来转化为机器人可执行的精确动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23703

arXiv 提交日期: 2025-12-29

robotics reinforcement learning model training reward modeling robotic manipulation policy optimization multi-view perception reward shaping

Robo-Dopamine：用于高精度机器人操作的通用工序奖励建模 / Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

1️⃣ 一句话总结

本文提出了一种名为Dopamine-Reward的新方法，通过构建一个能理解操作步骤细节、融合多视角信息的通用奖励模型，并结合一个理论上更可靠的奖励塑造框架，解决了机器人强化学习中奖励函数设计难、训练效率低的问题，使机器人仅需少量真实交互就能快速学会复杂精细的操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.10675

arXiv 提交日期: 2025-12-11

robotics model evaluation multi-modal video world models policy evaluation out-of-distribution generalization simulation robotic manipulation

在Veo世界模拟器中评估双子座机器人策略 / Evaluating Gemini Robotics Policies in a Veo World Simulator

1️⃣ 一句话总结

这项研究开发了一个基于先进视频生成模型（Veo）的机器人策略评估系统，它能通过逼真地模拟各种真实场景变化，来全面测试机器人在常规、意外情况下的表现以及安全性，而无需进行大量实体实验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11891

arXiv 提交日期: 2025-12-09

robotics multi-modal model training vision-language-action safety constraints control barrier functions robotic manipulation benchmark

VLSA：具备即插即用安全约束层的视觉-语言-动作模型 / VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer

1️⃣ 一句话总结

这篇论文提出了一种名为AEGIS的新型机器人控制架构，它通过一个可即插即用的安全约束层，让现有的视觉语言动作模型在执行复杂任务指令时，能自动且理论可证地避免碰撞，从而在保持任务执行能力的同时大幅提升操作安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.04913

1️⃣ 一句话总结

arXiv ID: 2602.22862

1️⃣ 一句话总结

arXiv ID: 2602.22056

1️⃣ 一句话总结

arXiv ID: 2602.20566

1️⃣ 一句话总结

arXiv ID: 2602.14526

1️⃣ 一句话总结

arXiv ID: 2602.11832

1️⃣ 一句话总结

arXiv ID: 2602.09878

1️⃣ 一句话总结

arXiv ID: 2512.23703

1️⃣ 一句话总结

arXiv ID: 2512.10675

1️⃣ 一句话总结

arXiv ID: 2512.11891

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.04913 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22862 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22056 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20566 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14526 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11832 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09878 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.10675 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11891 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.04913

arXiv ID: 2602.22862

arXiv ID: 2602.22056

arXiv ID: 2602.20566

arXiv ID: 2602.14526

arXiv ID: 2602.11832

arXiv ID: 2602.09878

arXiv ID: 2512.23703

arXiv ID: 2512.10675

arXiv ID: 2512.11891