← 返回列表

🤖 系统

📄 Abstract - BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

⏳ 正在获取摘要...

顶级标签: agents

📄 论文总结

BEAR：多模态大语言模型具身能力评估与增强基准 / BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

1️⃣ 一句话总结

本研究提出了首个系统评估多模态大语言模型具身能力的综合基准BEAR，并开发了BEAR-Agent代理系统，通过集成视觉工具显著提升了模型在具身任务中的表现。

2️⃣ 论文创新点

1. BEAR基准框架

创新点：首个将具身能力系统化为6个类别14个原子技能的基准，包含4,469个图像-视频-文本样本
区别/改进：解决了现有评估缺乏技能分解的问题，提供了跨多个领域的系统评估
意义：揭示了MLLM在具身能力上的局限性，指导未来发展

2. 长视野类别设计

创新点：首次将具身任务分解为技能导向步骤，每个步骤对应BEAR中的原子技能
区别/改进：将高级目标分解为结构化技能链，从感知到规划全面覆盖
意义：验证技能分类法在具身任务执行中的实用性，促进具身任务的可解释性和模块化评估

3. BEAR-Agent系统

创新点：多模态可对话代理，通过集成预训练视觉模型增强MLLM的感知、3D理解和规划能力
区别/改进：提供类别特定模块如物体检测、深度估计等，增强全视觉和3D空间能力
意义：显著改进MLLM在具身任务中的表现，并有益于模拟环境中的具身任务

3️⃣ 主要结果与价值

结果亮点

评估20个代表性MLLM显示在所有具身能力领域存在持续局限性
BEAR-Agent在BEAR基准上实现显著性能提升（绝对增益9.12%，相对改进17.5%）
与MOKA集成后任务成功率平均提升20.17%，证明其能有效提升关键点选择的决策质量

实际价值

为多模态大语言模型在具身能力上的评估和改进提供标准化框架
BEAR-Agent通过视觉工具集成显著提升模型在实际操作任务中的表现
推动通用具身代理发展，为机器人操作和空间推理任务提供有效解决方案

4️⃣ 术语表

BEAR：首个系统评估多模态大语言模型具身能力的基准，包含6个类别14个原子技能和4,469个图像-视频-文本样本
BEAR-Agent：多模态可对话代理系统，通过集成基础模型和定制Python函数来增强MLLM的具身能力
长视野类别：BEAR中的一个类别，将具身任务分解为技能导向步骤，用于评估核心技能的整合
全视觉能力：全视觉能力，包括细粒度视觉识别、定位和语义理解等综合视觉能力
测试时缩放：模型推理阶段的后处理策略，通过集成多个预测或使用奖励模型选择最佳输出，以提升模型性能
IoU：交并比，在边界框任务中用作评估指标，计算预测框与真实框的重叠程度
MOKA：基线方法，使用GPT-4v从RGB观测生成关键点并规划运动完成任务

📄 打开原文 PDF