arXiv ID:
2604.19631
arXiv 提交日期: 2026-04-21
MoSA:面向动态场景图生成的运动引导语义对齐方法 / MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation
1️⃣ 一句话总结
本文提出了一种名为MoSA的方法,通过提取物体间的运动特征(如速度、距离)并将其与空间关系融合,再借助文本语义对齐技术,显著提升了视频中物体间动态关系的识别能力,尤其对罕见关系类型的建模效果更好。