arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.08308

🤖 系统

10-11 12:19

llm

reasoning models reflection behavior inference optimization chain-of-thought efficient inference

📄 论文总结

推理模型反思行为分析与高效推理优化方法 / Analysis of Reflection Behavior in Reasoning Models and Efficient Inference Optimization Methods

1️⃣ 一句话总结

本研究系统分析了推理模型中的反思行为，发现反思主要是确认性而非纠错性，并基于此提出了问题感知早停和动态截断策略，显著减少了推理计算量且精度损失较小。

2️⃣ 论文创新点

1. 反思行为定量分析

创新点：对八个推理模型在五个数学数据集上的反思模式进行系统量化研究
区别/改进：揭示了反思主要是确认性而非修正性的本质特征
意义：挑战了反思能有效纠错误答案的普遍假设

2. 问题感知早停方法

创新点：在生成几个合理候选答案后停止推理过程
区别/改进：减少不必要的反思步骤，提高推理效率
意义：在精度损失较小的情况下显著减少计算资源消耗

3. 动态反思截断

创新点：在候选答案出现后动态截断后续反思内容
区别/改进：减少24.5%的推理令牌，精度仅下降2.9%
意义：为高效推理模型设计提供了新思路

4. 基于LLM的候选答案提取器

创新点：基于大语言模型的候选答案提取器，解析思维链输出并识别候选答案位置
区别/改进：通过结构化分析模型反思行为，无需实际解题能力即可提取候选答案
意义：为理解模型反思过程提供了可靠工具，支持后续反思类型分析

3️⃣ 主要结果与价值

结果亮点

超过90%的反思是确认性的，而非纠错性的
候选答案检测器平均节省29.9%的令牌，性能仅下降3.8%
问题感知反射控制器将性能下降改善至2.9%，同时节省24.5%的令牌
SFT训练中cut-at-6比cut-at-1平均提升3.8%准确率

实际价值

为推理模型的实际部署提供了计算效率优化方案
指导更高效的数据集构建和训练策略
在精度和效率之间实现更好的平衡

4️⃣ 术语表

推理模型：具有内部反思能力，能检测潜在错误并调整推理轨迹的大语言模型
RLVR：带可验证奖励的强化学习，用于训练具有反思能力的推理模型
反思：推理过程中连续候选答案之间的内容，主要用于确认而非纠正初始答案
正向推理：导致第一个候选答案的推理步骤，与反思推理相对
候选答案：思维链推理步骤中推导出的可能答案，通过LLM提取器识别
反思类型：基于连续候选答案正确性变化定义的反思类型，包括T→T、F→F(same)、F→T、F→F(diff)、T→F
确认性反思：确认性反思，指答案正确性未改变的反思类型（T→T和F→F相同），占反思的90%以上
SFT：监督微调，通过在精心策划的数据集上进行训练来提升模型性能
反思步骤：思维链中模型重新考虑和验证候选答案的过程次数
F → T 反思：纠错性反思，指从错误答案修正为正确答案的反思过程
SFT蒸馏：监督微调蒸馏，通过专家模型rollout数据训练学生模型的方法
CAD：候选答案检测器，用于检测生成句子中是否包含候选答案
QRC：问题感知反射控制器，预测问题是否需要更多反射的二元分类器
Chain-of-Thought：思维链推理方法，通过提示引导语言模型进行逐步推理
LLMs：大语言模型，Large Language Models的缩写
AIME：美国数学邀请赛，用于评估数学问题求解能力的基准数据集
Rollouts：在基准测试中每个问题生成的模型推理轨迹数量
DeepSeek-R1-0528：在多个数学推理数据集上表现最佳的模型，平均准确率90.6%

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.08308

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 反思行为定量分析

2. 问题感知早停方法

3. 动态反思截断

4. 基于LLM的候选答案提取器

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.08308 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 反思行为定量分析

2. 问题感知早停方法

3. 动态反思截断

4. 基于LLM的候选答案提取器

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.08308