arXiv ID:
2510.01459
arXiv 提交日期: 2025-10-01
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。