🤖 系统
11-30 17:56
📄 论文总结
RynnVLA-002:统一的视觉-语言-动作与世界模型 / RynnVLA-002: A Unified Vision-Language-Action and World Model
1️⃣ 一句话总结
这篇论文提出了一个将视觉-语言-动作模型与世界模型相结合的统一框架,通过让两个模型相互增强,显著提升了机器人在模拟和真实环境中的任务成功率。
请先 登录 后再提交论文
RynnVLA-002:统一的视觉-语言-动作与世界模型 / RynnVLA-002: A Unified Vision-Language-Action and World Model
这篇论文提出了一个将视觉-语言-动作模型与世界模型相结合的统一框架,通过让两个模型相互增强,显著提升了机器人在模拟和真实环境中的任务成功率。
GUI-360°:用于计算机使用代理的全面数据集与基准测试 / GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents
这篇论文提出了一个大规模数据集GUI-360°,通过自动化流程收集了超过120万次Windows办公软件操作记录,旨在解决计算机代理在图形界面理解、屏幕解析和行动预测方面的关键挑战,并为相关研究提供了统一的评估基准。