arXiv ID:
2602.07434
arXiv 提交日期: 2026-02-07
连接语音、情感与动作:一种基于视觉语言模型、可部署于边缘的人形机器人多模态交互框架 / Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots
1️⃣ 一句话总结
这篇论文提出了一个名为SeM²的智能框架,它能让机器人像人一样,在说话时自然地协调语音、面部表情和身体动作来表达情感,并且这个框架经过优化后可以直接在机器人自带的设备上高效运行,无需依赖云端。