arXiv ID:
2601.06431
arXiv 提交日期: 2026-01-10
LSRIF:用于指令遵循的逻辑结构化强化学习 / LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
1️⃣ 一句话总结
这篇论文提出了一种名为LSRIF的新训练框架,它通过显式地建模指令中的逻辑结构(如顺序、条件和并行关系),并设计对应的结构化奖励方法,显著提升了大语言模型遵循复杂指令和进行逻辑推理的能力。