🤖 系统
11-30 17:49
📄 论文总结
SAIL-RL:通过双奖励强化学习指导多模态大语言模型何时及如何思考 / SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
1️⃣ 一句话总结
这项研究提出了SAIL-RL强化学习框架,通过双重奖励机制教会多模态大语言模型在简单任务中避免过度思考、在复杂任务中充分推理,从而显著提升模型推理能力和可靠性。