arXiv ID:
2602.05547
多任务GRPO:跨任务的可靠大语言模型推理 / Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
1️⃣ 一句话总结
这项研究提出了一种名为MT-GRPO的新算法,通过动态调整任务权重和引入比例保持采样器,有效解决了多任务强化学习训练中常见的性能失衡问题,从而显著提升了模型在所有任务上的最差性能,并提高了训练效率。