← 返回列表

🤖 系统

📄 Abstract - R-4B: A Multimodal Large Language Model with Adaptive Auto-Thinking Capability

⏳ 正在获取摘要...

📄 论文总结

R-4B：具有自适应自动思维能力的多模态大语言模型

R-4B: A Multimodal Large Language Model with Adaptive Auto-Thinking Capability

1️⃣ 一句话总结

R-4B是一个创新的多模态大语言模型，通过双模式退火训练和双模式策略优化，实现了根据问题复杂度自适应启用思考过程的能力，在多个视觉推理基准测试中达到最先进性能。

2️⃣ 论文创新点

1. 自适应自动思维机制

创新点是什么：R-4B能够根据问题复杂度自适应地决定是否启用思考过程，避免简单问题上的计算冗余
与已有方法的区别/改进：相比总是启用思考的模型，减少了不必要的计算开销；相比需要手动启用思考的模型，实现了完全自动化
为什么有意义：提高了计算效率，使模型在保持高性能的同时降低推理成本

2. 双模式退火训练

创新点是什么：通过bi-mode annealing方法训练模型同时掌握思维和非思维两种模式
与已有方法的区别/改进：解决了传统方法依赖人工标注数据或复杂奖励函数的问题
为什么有意义：为模型提供了通用的双模式能力基础

3. 双模式策略优化(BPO)

创新点是什么：采用BPO方法在改进的GRPO框架下优化模型决策准确性
与已有方法的区别/改进：提高了模型判断是否激活思考过程的准确性
为什么有意义：确保模型能够正确识别问题复杂度并做出最优决策

4. 启发式数据策展

创新点是什么：基于启发式的双模式数据策展策略
与已有方法的区别/改进：使用Difficulty-based和Performance-based两种启发式方法自动分类数据
为什么有意义：无需繁琐人工标注即可系统划分推理和非推理数据

3️⃣ 主要结果与价值

实验结果亮点

在MMMU val基准上达到SOTA的68.1%准确率
在MMVet基准上R-4B-Base达到85.9%，领先所有竞争者
在HallusionBench和MMVP上分别以58.9%和80.7%创下新纪录
在AI2D(86.2%)、CharXiv DQ(82.9%)和RQ(56.8%)文档图表理解任务上表现优异
在BLINK val基准上与Qwen2.5-VL并列第一(56.3%)
在CountBench上以92.6%的分数创下最高记录，展现卓越的对象计数能力

实际应用价值

实现了性能与效率的最优平衡，在简单任务上节省资源，在复杂任务上提升性能
完全自动化的思维决策过程，无需人工干预
在通用视觉理解和复杂推理任务上均表现出色，具有广泛的应用前景
4B参数规模的模型实现了与更大模型相当的性能，计算成本更低

4️⃣ 术语表

R-4B：具有自动思考能力的多模态大语言模型，能够自适应决定是否启用思考过程
bi-mode annealing：双模式退火训练方法，用于训练模型同时掌握思维和非思维两种响应模式
BPO：双模式策略优化，通过强化学习优化模型在思维和非思维模式之间的自适应选择策略
auto-thinking：自动思考模式，模型自动选择是否进行思考推理的模式
R-4B-RL：经过强化学习训练的R-4B模型版本，在自动思考模式下评估
MMMU：多学科多模态理解基准测试，用于评估模型的综合能力

📄 打开原文 PDF