arXiv ID:
2606.09662
内置思考何时有益或有害:指令遵循中的约束级错误偏移 / When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following
1️⃣ 一句话总结
该研究发现,大型推理模型的“思考”模式虽然整体上对指令遵循的准确率影响不大,但会导致不同类型的约束错误发生系统性偏移:对涉及全局规划和结构的约束(如计数、协调)有所改善,对要求精确局部形式的约束(如特定格式)反而变差,且这一现象在不同模型中普遍存在。