arXiv ID:
2603.29281
arXiv 提交日期: 2026-03-31
PRISM:一个面向具身视觉语言模型的多视角多能力零售视频数据集 / PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为PRISM的大型零售场景视频数据集,旨在通过结构化知识训练,显著提升AI模型在真实物理环境中理解空间、动态和行动的能力,使其更可靠地执行任务。