🤖 系统
11-30 17:27
📄 论文总结
R-4B:通过双模式退火和强化学习激励多模态大语言模型中的通用自动思考能力 / R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
1️⃣ 一句话总结
这篇论文提出了R-4B模型,它能够根据问题难度自动选择是否启动思考过程,从而在保证高性能的同时显著降低计算成本,在多个基准测试中超越了同类先进模型。