arXiv最新AI论文速览速学

🔍

robotics ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System 05-02

arXiv ID: 2604.11585

arXiv 提交日期: 2026-04-13

computer vision multi-modal robotics semantic segmentation depth completion cross-modal adaptation rgb-d perception geometric prompting

GeomPrompt：面向深度缺失与退化的RGB-D语义分割的几何提示学习 / GeomPrompt: Geometric Prompt Learning for RGB-D Semantic Segmentation Under Missing and Degraded Depth

1️⃣ 一句话总结

这篇论文提出了一个名为GeomPrompt的轻量级方法，它能在深度信息缺失或质量不佳时，仅利用RGB图像自动生成对下游分割任务有用的几何提示，从而有效提升RGB-D语义分割模型的鲁棒性和效率，而无需进行复杂的深度估计。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07957

arXiv 提交日期: 2026-04-09

robotics multi-modal model training vision-language navigation trajectory prediction generative world models semantic-spatial memory teacher-student framework

WorldMAP：利用生成式世界模型自举提升视觉语言导航轨迹预测 / WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models

1️⃣ 一句话总结

这篇论文提出了一个名为WorldMAP的新方法，它巧妙地利用生成式世界模型来‘想象’未来的环境画面，并从中提取出结构化的导航指导信息，从而训练出一个更轻量、更准确的视觉语言模型，使其仅凭单次观察就能预测出稳定可靠的导航路线。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08475

arXiv 提交日期: 2026-04-09

robotics multi-modal computer vision 3d manipulation image editing priors zero-shot generalization spatial reasoning open-world robotics

LAMP：将图像编辑提升为开放世界机器人操作的通用三维先验 / LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation

1️⃣ 一句话总结

这篇论文提出了一种名为LAMP的新方法，它巧妙地将图像编辑中隐含的二维空间信息转化为精细的三维几何变换，从而为零样本的开放世界机器人操作任务提供了强大且通用的指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06720

arXiv 提交日期: 2026-04-08

computer vision robotics data 6d pose estimation object deformation dataset rgb-d slam

探索变形物体的6D位姿估计 / Exploring 6D Object Pose Estimation with Deformation

1️⃣ 一句话总结

这篇论文提出了一个名为DeSOPE的大规模数据集，专门用于研究物体在发生形变（如磨损、碰撞）时的6D位姿估计问题，并通过实验发现现有方法在物体形变时性能显著下降，强调了处理形变对实际应用的重要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07034

arXiv 提交日期: 2026-04-08

robotics multi-modal computer vision robot failure analysis vision-language models keyframe extraction bird's-eye-view video tokenization

KITE：基于视觉语言模型的机器人故障分析之关键帧索引与标记化证据框架 / KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

1️⃣ 一句话总结

这篇论文提出了一种名为KITE的免训练方法，它能将冗长的机器人操作视频自动浓缩成一组包含关键动作画面和物体布局示意图的简洁、可解释的“证据包”，从而让通用视觉语言模型能更准确、高效地分析机器人任务中的故障类型、位置和原因。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05595

arXiv 提交日期: 2026-04-07

robotics multi-modal model evaluation red teaming robustness vision-language-action adversarial testing safety evaluation

通过多样性感知红队测试揭示视觉-语言-动作模型的语言脆弱性 / Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming

1️⃣ 一句话总结

这篇论文提出了一种新的多样性感知红队测试方法，能够系统性地发现并生成多种多样的、能导致机器人执行失败的自然语言指令，从而有效暴露当前先进的视觉-语言-动作模型在理解语言细微差别时存在的安全隐患。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05378

arXiv 提交日期: 2026-04-07

agents natural language processing robotics autonomous driving vision-language-action robustness evaluation counterfactual analysis instruction following

ICR-Drive：面向端到端语言驱动自动驾驶的指令反事实鲁棒性框架 / ICR-Drive: Instruction Counterfactual Robustness for End-to-End Language-Driven Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一个名为ICR-Drive的诊断框架，用于测试和评估语言驱动自动驾驶系统在面对指令表述变化（如同义改写、模糊、噪声或误导性指令）时的鲁棒性，揭示了当前模型在安全性上的潜在风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06168

arXiv 提交日期: 2026-04-07

robotics multi-modal model training policy learning video generation world action models zero-shot policy multiview video

动作图像：通过多视角视频生成的端到端策略学习 / Action Images: End-to-End Policy Learning via Multiview Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为‘动作图像’的新方法，它将机器人的动作转化为易于理解的多视角视频片段，从而让一个现成的视频生成模型能直接作为机器人策略来使用，无需额外模块，并在多项任务中取得了出色的零样本性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05405

arXiv 提交日期: 2026-04-07

computer vision robotics multi-modal 3d object detection sensor fusion adverse weather lidar 4d radar

用于鲁棒激光雷达-雷达三维目标检测的天气条件分支路由方法 / Weather-Conditioned Branch Routing for Robust LiDAR-Radar 3D Object Detection

1️⃣ 一句话总结

这篇论文提出了一种能根据天气条件动态调整激光雷达和4D雷达使用偏好的智能融合方法，通过一个轻量级路由器来聚合不同传感器的特征，从而在恶劣天气下实现更鲁棒的三维目标检测。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04564

arXiv 提交日期: 2026-04-06

multi-modal robotics computer vision offroad navigation vision-language model zero-shot segmentation autonomous driving visual reasoning

基于视觉提示与多模态大语言模型的越野地图构建推理方法 / Visual Prompt Based Reasoning for Offroad Mapping using Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一种创新的零样本方法，它利用一个视觉语言大模型，通过分析标注了数字标签的越野环境分割图像，直接推理出可通行区域，从而替代了传统需要多个专门模型协同工作的复杂方案，实现了更高效的越野自主导航。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.11585

1️⃣ 一句话总结

arXiv ID: 2604.07957

1️⃣ 一句话总结

arXiv ID: 2604.08475

1️⃣ 一句话总结

arXiv ID: 2604.06720

1️⃣ 一句话总结

arXiv ID: 2604.07034

1️⃣ 一句话总结

arXiv ID: 2604.05595

1️⃣ 一句话总结

arXiv ID: 2604.05378

1️⃣ 一句话总结

arXiv ID: 2604.06168

1️⃣ 一句话总结

arXiv ID: 2604.05405

1️⃣ 一句话总结

arXiv ID: 2604.04564

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.11585 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07957 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07034 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05595 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05378 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06168 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04564 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.11585

arXiv ID: 2604.07957

arXiv ID: 2604.08475

arXiv ID: 2604.06720

arXiv ID: 2604.07034

arXiv ID: 2604.05595

arXiv ID: 2604.05378

arXiv ID: 2604.06168

arXiv ID: 2604.05405

arXiv ID: 2604.04564