🤖 系统
11-30 17:35
📄 论文总结
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。
请先 登录 后再提交论文
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。