arXiv最新AI论文速览速学

🔍

标签: #action prediction ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training 06-04

arXiv ID: 2606.04708

arXiv 提交日期: 2026-06-03

robotics multi-modal model training vla umi physical validation vqa dataset action prediction

VISTA：面向视觉-语言-动作模型训练的UMI数据视觉校准与物理验证适配框架 / VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training

1️⃣ 一句话总结

本文提出VISTA框架，通过视觉问答数据集解决腕部鱼眼相机视角与预训练模型不匹配的问题，并引入物理验证流水线剔除机器人运动中不可行的轨迹，从而让从日常人类演示数据训练的机器人能更可靠地执行复杂操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.29400

arXiv 提交日期: 2026-05-28

machine learning multi-modal model training fine-tuning benchmark action prediction screen understanding vision-language model

面向屏幕条件动作预测的架构敏感型监督微调：PiSAR基准研究 / Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark

1️⃣ 一句话总结

本文通过构建包含约1.3万个屏幕行为记录的数据集PiSAR，对比了多种模型的性能，发现对特定架构（如Qwen3-VL-8B）进行微调后，其预测准确率远超顶尖的零样本模型（如GPT-5.5），但在某些大参数模型（如Gemma-4-26B）上微调效果不佳，表明微调效果高度依赖于模型架构与训练方法的匹配度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17240

arXiv 提交日期: 2026-03-18

robotics model training multi-modal world-action model robot policy video generation action prediction efficient inference

GigaWorld-Policy：一种高效、以动作为中心的世界-动作模型 / GigaWorld-Policy: An Efficient Action-Centered World--Action Model

1️⃣ 一句话总结

这篇论文提出了一种名为GigaWorld-Policy的新型机器人策略学习模型，它通过将动作预测与视频生成解耦，在训练时利用视频监督提升动作的物理合理性，而在实际部署时只需快速预测动作，从而实现了比现有方法快9倍的速度和更高的任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08167

arXiv 提交日期: 2026-02-09

agents robotics multi-modal embodied reasoning self-supervised learning vision-language-action models bootstrapping action prediction

行动预测具身推理的自监督引导方法 / Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning

1️⃣ 一句话总结

这项研究提出了一种名为R&B-EnCoRe的新方法，让AI模型能够通过自我监督的方式，自动从海量网络知识中提炼出对具体物理任务（如机械臂操作、机器人导航）最有效的推理策略，从而显著提升任务执行的成功率，无需依赖人工标注或固定模板。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17502

arXiv 提交日期: 2025-11-21

robotics multi-modal agents vision-language-action world model robot learning sim2real action prediction

RynnVLA-002：统一的视觉-语言-动作与世界模型 / RynnVLA-002: A Unified Vision-Language-Action and World Model

1️⃣ 一句话总结

这篇论文提出了一个将视觉-语言-动作模型与世界模型相结合的统一框架，通过让两个模型相互增强，显著提升了机器人在模拟和真实环境中的任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.04307

arXiv 提交日期: 2025-11-06

agents benchmark computer vision computer-using agents gui interaction multi-modal trajectories action prediction screen parsing

GUI-360°：用于计算机使用代理的全面数据集与基准测试 / GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents

1️⃣ 一句话总结

这篇论文提出了一个大规模数据集GUI-360°，通过自动化流程收集了超过120万次Windows办公软件操作记录，旨在解决计算机代理在图形界面理解、屏幕解析和行动预测方面的关键挑战，并为相关研究提供了统一的评估基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04708

1️⃣ 一句话总结

arXiv ID: 2605.29400

1️⃣ 一句话总结

arXiv ID: 2603.17240

1️⃣ 一句话总结

arXiv ID: 2602.08167

1️⃣ 一句话总结

arXiv ID: 2511.17502

1️⃣ 一句话总结

arXiv ID: 2511.04307

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04708 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.29400 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17240 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08167 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17502 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.04307 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04708

arXiv ID: 2605.29400

arXiv ID: 2603.17240

arXiv ID: 2602.08167

arXiv ID: 2511.17502

arXiv ID: 2511.04307