🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
Multimodal Reward-Guided Decoding for Controlled Generation in MLLMs
多模态奖励引导解码:面向多模态大语言模型的可控生成方法
1️⃣ 一句话总结
该论文提出了一种名为多模态奖励引导解码(MRGD)的新方法,通过动态组合视觉幻觉抑制和对象召回奖励模型,在推理阶段直接控制多模态大语言模型(MLLMs)的输出质量,实现了精度-召回率的灵活权衡与计算开销的按需调节,填补了现有方法(如微调、RLHF)缺乏细粒度推理控制的空白。
2️⃣ 论文创新点
1. 多模态奖励引导解码框架(MRGD)
- 创新点:首次将奖励引导解码扩展到多模态场景,通过两个独立奖励模型(r_hal和r_rec)分别控制对象幻觉和召回率。
- 改进:传统方法(如SFT、RLHF)需重新训练模型且无法动态调整,而MRGD仅需推理时线性组合奖励分数(w·r_hal + (1-w)·r_rec)。
- 意义:实现了无需模型更新的实时可控生成,用户可通过调整权重w直接平衡精度与召回。
2. 双奖励模型设计与训练
- 创新点:
- r_hal:基于多模态偏好数据(如LLaVA-RLHF)训练,结合Bradley-Terry模型和均方误差损失避免梯度饱和。
- r_rec:利用现成模块(OWLv2检测器+词嵌入模型)构建,无需额外训练。
- 改进:现有工作多关注单一幻觉抑制,而MRGD首次将召回率量化并纳入解码控制。
- 意义:为多模态生成提供了可解释、可扩展的质量评估维度。
3. 动态计算效率优化
- 创新点:通过分句评估(每T句评分)和批量生成策略,将计算开销降低至朴素拒绝采样的1/6。
- 改进:传统方法(如束搜索)需固定计算预算,而MRGD允许通过调整采样数k灵活权衡质量与延迟。
- 意义:使高精度生成在资源受限场景(如边缘设备)中可行。
3️⃣ 主要结果与价值
实验结果亮点
- 幻觉抑制:在CHAIR指标上降低70%(w=1时),召回率仅牺牲6.5%。
- 召回提升:双奖励组合(w=0.5)使召回率提升2.6%~8.4%,幻觉率增幅<1%。
- 跨模型通用性:直接应用于Llama-3.2-Vision等新模型时效果稳定(无需重新训练)。
实际应用价值
- 可控生成:适用于需平衡准确性与完整性的场景(如医疗报告生成、自动驾驶环境描述)。
- 低成本部署:仅需推理时加载轻量奖励模型,适合API服务或终端设备。
- 跨领域扩展:框架可延伸至其他模态(如音频)或任务(如视觉问答)。
4️⃣ 术语表
- MRGD:多模态奖励引导解码,通过组合奖励模型动态控制MLLM生成。
- MLLM:多模态大语言模型,能处理文本和视觉输入。
- r_hal/r_rec:分别评估生成文本的幻觉程度和对象召回率的奖励模型。
- CHAIR:衡量生成描述中幻觉对象比例的指标(越低越好)。
- PaliGemma/OWLv2:用于构建奖励模型的视觉骨干网络和目标检测器。
- DPO:直接偏好优化,一种替代RLHF的模型对齐方法。
- SigLIP:预训练视觉语言模型,可作为r_hal的替代方案。
(总结基于10个chunk的整合,已合并重复表述并优化逻辑连贯性)