🤖 系统
11-30 17:48
📄 论文总结
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
1️⃣ 一句话总结
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。
请先 登录 后再提交论文
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。
OmniEVA:通过任务自适应三维基础与具身感知推理的通用具身规划器 / OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
这篇论文提出了一个名为OmniEVA的智能体规划系统,它通过动态选择三维信息融合和结合机器人物理限制进行推理,解决了现有模型在空间适应性和实际可行性方面的不足,从而在各种现实任务中实现了更通用和可靠的决策规划。