arXiv ID:
2512.06558
arXiv 提交日期: 2025-12-06
人机交互中的具身指代表达理解 / Embodied Referring Expression Comprehension in Human-Robot Interaction
1️⃣ 一句话总结
这篇论文为了解决机器人理解人类在真实环境中结合语言和手势的指令的难题,创建了一个包含室内外多视角互动的大规模数据集Refer360,并提出了一个名为MuRes的多模态引导残差模块,能有效提升现有模型对这类具身指令的理解能力。