arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2509.09677

🤖 系统

09-15 14:25

llm agents

long-horizon execution self-conditioning chain-of-thought step accuracy model scaling

📄 论文总结

大型语言模型的长程执行能力与自我条件效应

Long-Horizon Execution and Self-Conditioning in Large Language Models

1️⃣ 一句话总结

本研究揭示了大型语言模型在长程任务执行中存在自我条件效应（历史错误导致后续错误率增加），并提出通过思维链和模型规模扩展来显著提升长程执行能力，即使单步准确率微小改进也能带来任务长度的指数级增长。

2️⃣ 论文创新点

1. 执行能力隔离方法

创新点是什么：通过提供明确的知识和计划来隔离LLMs的长程执行能力，排除规划和知识获取的干扰，专注于测量纯粹的执行性能
与已有方法的区别/改进：设计了基于键值字典和状态累加的检索-组合任务框架，将复杂执行分解为可控的搜索和组合操作
为什么有意义：为评估LLMs的长程任务执行性能提供了新的方法论框架，首次实证证明LLMs存在独立于规划和知识的长程执行缺陷

2. 自我条件效应发现

创新点是什么：识别出LLMs在长程执行中会出现自我条件化现象，即历史错误会条件化模型产生更多后续错误
与已有方法的区别/改进：通过反事实实验分离了长上下文退化和自我调节效应的影响，揭示了长序列生成中的内在脆弱机制
为什么有意义：解释了为什么LLMs在简单但冗长任务中会失败的根本原因，超越了之前认识的长上下文问题

3. 任务长度与步骤准确率关系模型

创新点是什么：提出了在恒定步骤准确率和无自我校正假设下的数学公式H_s(p) = ln(s)/ln(p)，量化了步骤准确率与可完成任务长度之间的关系
与已有方法的区别/改进：超越了传统短任务评估框架，提供了分析长任务执行能力的新视角
为什么有意义：揭示了步骤准确率的微小提升对长任务执行能力的指数级影响，为评估模型经济价值提供了新指标

4. 思维机制解决自我条件化

创新点是什么：通过启用顺序测试时间计算（思考）功能，使模型能够独立思考当前轮次而不受历史错误影响
与已有方法的区别/改进：经过强化学习训练的Qwen3模型即使上下文只包含先前轮次的最终答案，也能生成推理轨迹
为什么有意义：彻底解决了模型因历史错误而性能下降的自我条件化问题，提升了长对话稳定性

3️⃣ 主要结果与价值

实验结果亮点

模型规模扩展能持续提升长序列任务执行轮次，性能改善未出现递减趋势
大模型通过内部电路冗余减少错误，比小模型在长序列任务中更可靠
启用思考模式后，模型性能随规模扩大而提升，即使在高复杂度任务（K=10）中也能观察到明显的扩展趋势
滑动上下文窗口能显著提高长期执行的可靠性，减少模型对自身历史错误的暴露

实际应用价值

为智能体工作流中结合思维链（如ReAct）进行推理后再行动的重要性提供了关键见解
揭示了开源模型在长程执行能力上与API专用模型的差距，指明了未来研究方向
证明了顺序测试时间计算比并行计算扩展提供了无法比拟的优势
为改善LLM代理的长期可靠性提供了有前景的方向

4️⃣ 术语表

self-conditioning：自我条件效应，指模型在长程执行中基于先前的错误进行条件调节，导致后续错误可能性增加的现象
long-horizon execution：长程执行，指模型在需要大量步骤的长期任务中的执行能力
step accuracy：步骤准确率，模型执行单个步骤的正确率，是影响长任务执行成功率的关键因素
Horizon Length：视界长度，模型能够以超过特定成功率（如50%）完成的任务长度或步骤数
chain-of-thought：思维链，一种提示技术，要求模型在生成最终答案前先输出推理步骤，以提高复杂任务的表现
sequential test time compute：顺序测试时间计算（又称思考），模型在推理时生成思考轨迹的能力
retrieve-then-compose：检索-组合，执行过程中的两个核心步骤：检索指定键对应的值，然后将这些值组合更新状态
turn complexity (K)：轮次复杂度，单轮查询中处理的连续键的数量，用于控制任务复杂度的实验参数

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2509.09677

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 执行能力隔离方法

2. 自我条件效应发现

3. 任务长度与步骤准确率关系模型

4. 思维机制解决自我条件化

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2509.09677 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 执行能力隔离方法

2. 自我条件效应发现

3. 任务长度与步骤准确率关系模型

4. 思维机制解决自我条件化

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2509.09677