🤖 系统
11-30 17:52
📄 论文总结
SofT-GRPO:通过Gumbel重参数化软思维策略优化超越离散令牌大语言模型强化学习 / SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
1️⃣ 一句话总结
这项研究提出了一种名为SofT-GRPO的新算法,通过引入Gumbel噪声和重参数化技术,成功实现了对软思维推理模式大语言模型的强化学习训练,使其在多项测试中超越了传统的离散令牌强化学习方法。