← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

中英文论文题目：
Multimodal Reward-Guided Decoding for Controlled Generation in MLLMs
多模态奖励引导解码：面向多模态大语言模型的可控生成方法

1️⃣ 一句话总结

该论文提出了一种名为多模态奖励引导解码（MRGD）的新方法，通过动态组合视觉幻觉抑制和对象召回奖励模型，在推理阶段直接控制多模态大语言模型（MLLMs）的输出质量，实现了精度-召回率的灵活权衡与计算开销的按需调节，填补了现有方法（如微调、RLHF）缺乏细粒度推理控制的空白。

2️⃣ 论文创新点

1. 多模态奖励引导解码框架（MRGD）

创新点：首次将奖励引导解码扩展到多模态场景，通过两个独立奖励模型（r_hal和r_rec）分别控制对象幻觉和召回率。
改进：传统方法（如SFT、RLHF）需重新训练模型且无法动态调整，而MRGD仅需推理时线性组合奖励分数（w·r_hal + (1-w)·r_rec）。
意义：实现了无需模型更新的实时可控生成，用户可通过调整权重w直接平衡精度与召回。

2. 双奖励模型设计与训练

创新点：
r_hal：基于多模态偏好数据（如LLaVA-RLHF）训练，结合Bradley-Terry模型和均方误差损失避免梯度饱和。
r_rec：利用现成模块（OWLv2检测器+词嵌入模型）构建，无需额外训练。
改进：现有工作多关注单一幻觉抑制，而MRGD首次将召回率量化并纳入解码控制。
意义：为多模态生成提供了可解释、可扩展的质量评估维度。

3. 动态计算效率优化

创新点：通过分句评估（每T句评分）和批量生成策略，将计算开销降低至朴素拒绝采样的1/6。
改进：传统方法（如束搜索）需固定计算预算，而MRGD允许通过调整采样数k灵活权衡质量与延迟。
意义：使高精度生成在资源受限场景（如边缘设备）中可行。

3️⃣ 主要结果与价值

实验结果亮点

幻觉抑制：在CHAIR指标上降低70%（w=1时），召回率仅牺牲6.5%。
召回提升：双奖励组合（w=0.5）使召回率提升2.6%~8.4%，幻觉率增幅<1%。
跨模型通用性：直接应用于Llama-3.2-Vision等新模型时效果稳定（无需重新训练）。

实际应用价值

可控生成：适用于需平衡准确性与完整性的场景（如医疗报告生成、自动驾驶环境描述）。
低成本部署：仅需推理时加载轻量奖励模型，适合API服务或终端设备。
跨领域扩展：框架可延伸至其他模态（如音频）或任务（如视觉问答）。

4️⃣ 术语表

MRGD：多模态奖励引导解码，通过组合奖励模型动态控制MLLM生成。
MLLM：多模态大语言模型，能处理文本和视觉输入。
r_hal/r_rec：分别评估生成文本的幻觉程度和对象召回率的奖励模型。
CHAIR：衡量生成描述中幻觉对象比例的指标（越低越好）。
PaliGemma/OWLv2：用于构建奖励模型的视觉骨干网络和目标检测器。
DPO：直接偏好优化，一种替代RLHF的模型对齐方法。
SigLIP：预训练视觉语言模型，可作为r_hal的替代方案。

（总结基于10个chunk的整合，已合并重复表述并优化逻辑连贯性）

📄 打开原文 PDF