arXiv ID:
2603.22282
arXiv 提交日期: 2026-03-23
UniMotion:一个用于运动-文本-视觉理解与生成的统一框架 / UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation
1️⃣ 一句话总结
这篇论文提出了首个能同时理解和生成人体运动、自然语言和RGB图像的统一框架,通过将运动视为与视觉同等的连续信号并采用新颖的训练策略,在多种跨模态任务上取得了领先性能。