LLM-in-Sandbox:通过代码沙箱解锁大语言模型的通用智能 / LLM-in-Sandbox Elicits General Agentic Intelligence
1️⃣ 一句话总结
本文提出了LLM-in-Sandbox框架,让大语言模型在代码沙箱(虚拟计算机)中自主探索,无需额外训练即可激发其在数学、物理、化学、生物医学等非代码领域的通用智能,并通过强化学习(LLM-in-Sandbox-RL)进一步提升模型能力。
2️⃣ 论文创新点
1. LLM-in-Sandbox通用框架
- 创新点:提出一种新范式,让LLM在一个具备外部资源访问、文件管理和代码执行三大核心能力的代码沙箱(虚拟计算机)中运行,以完成用户指定的任务。
- 区别/改进:相比现有面向软件工程的复杂、任务特定的沙箱系统,LLM-in-Sandbox采用轻量级、通用型设计,仅预置标准Python解释器和基础科学计算库,将获取特定领域工具的任务委托给模型自身。
- 意义:结合LLM的强大推理与智能体能力,解锁其在通用任务上的智能潜力,支持多样化任务而无需手动重新配置,并有利于大规模高效推理和训练。
2. 共享沙箱环境与最小化工具集设计
- 创新点:为所有任务使用一个共享的、预配置的代码沙箱环境,而非为每个任务创建独立环境;在沙箱中仅配备三个基本工具:执行任意终端命令、文件创建/查看/编辑、以及指示任务完成。
- 区别/改进:避免了为每个任务手动重新配置环境,支持多样化任务而无需更改环境;通过这三个基础工具的组合,实现了计算机的核心能力,支持安装包、管理文件、运行程序等几乎所有操作。
- 意义:提高了通用性和可扩展性,在扩展到数千个任务时能保持恒定的存储占用(约1.1GB),显著优于需要为每个任务存储独立镜像的方法(可能高达6TB);提供了最基础且通用的接口,使模型能够自由探索和完成广泛的计算任务。
3. 基于ReAct的工作流程与基于文件的输入输出处理
- 创新点:工作流程建立在ReAct框架上,模型根据环境反馈迭代地进行推理和行动,直到调用提交或达到最大轮次限制;利用沙箱的文件系统灵活处理多样化的输入输出格式,输入可通过提示词或文件提供,输出被指示放置到指定位置。
- 区别/改进:将沙箱特定组件(如工具调用、文件系统交互)集成到标准的ReAct循环中,鼓励自由探索并支持灵活的输入输出处理;将探索过程与最终输出清晰分离,并自然地适应各种数据格式。
- 意义:实现了模型与计算环境的多轮交互,使模型能够通过程序执行和计算工具来推导答案,而非直接硬编码结果,提升了解决复杂任务的能力;为处理不同类型任务(尤其是需要读取长文档的任务)提供了统一且灵活的机制,确保了最终输出的纯净性。
4. LLM-in-Sandbox强化学习(LLM-in-Sandbox-RL)
- 创新点:提出一种新的强化学习范式,在通用沙箱环境中使用基于上下文的通用领域数据训练LLM,旨在解锁LLM的潜力并提升其泛化能力。
- 区别/改进:克服了现有方法(如纯文本LLM-RL和特定领域SWE-RL)的局限性,同时实现了沙箱利用、通用领域适用性和数据/环境可扩展性。
- 意义:使模型能够在沙箱中有效探索,学习利用沙箱能力,并有望显著提升LLM在通用任务上的泛化能力;通过多轮沙箱交互(每步行动获得明确反馈)学习到的推理模式,能够有效地迁移到纯LLM推理场景,提升了模型输出的条理性和可靠性。
3️⃣ 主要结果与价值
结果亮点
- 在数学、物理、化学、生物医学、长文本理解和指令遵循等多个非代码领域的评估表明,强大的智能体模型在沙箱模式下性能普遍提升,最大增益达+24.2%(Qwen3-Coder在数学任务上)。
- 对模型沙箱利用行为的定量分析框架显示,数学任务因高计算频率(43.4%)受益最大,化学任务则因安装特定包而外部资源访问率最高(18.4%)。长上下文任务通过将文档存储在沙箱中(而非提示词中)获得了显著性能提升。
- LLM-in-Sandbox-RL训练在多个领域、模型能力和推理模式上表现出广泛的泛化能力,优于LLM-RL基线,且训练后模型在标准LLM模式下的输出也表现出显著增加的结构性组织和验证行为。
- 在长上下文任务中,通过将内容存储在本地文件而非提示中,显著减少了token消耗(例如Qwen模型从100K降至13K,减少高达8倍),LLM-in-Sandbox在所有任务上的总token消耗仅为LLM模式的0.5-0.8倍。
实际价值
- 提供了一种高效处理长文档、代码库等大规模上下文信息的方案,大幅降低了相关任务的计算成本。
- 框架设计具有高可扩展性,共享沙箱环境使得扩展到数千任务时存储占用保持恒定,有利于大规模部署。
- 开源的Python包便于研究社区和开发者使用与扩展,推动智能体与工具交互领域的研究。
- LLM-in-Sandbox-RL方法表明,通过通用数据在沙箱中训练,可以提升模型在广泛任务上的能力,为训练更通用的AI智能体提供了新方向。
4️⃣ 术语表
- LLM-in-Sandbox:一种让大型语言模型在代码沙箱(虚拟计算机)中运行的范式或框架。模型可以迭代调用工具(如执行bash命令、编辑文件)来完成任务,基于ReAct框架,并能访问外部资源、管理文件和执行代码。
- code sandbox:一个虚拟化的计算环境(通常是通过Docker容器实现的基于Ubuntu的系统),为LLM提供终端访问和完整的系统能力,允许其执行任何bash命令、创建修改文件以及访问网络资源。
- ReAct:一个框架,其中模型通过迭代地进行推理(Reasoning)和行动(Acting)来与环境交互,基于环境反馈决定下一步行动。
- LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL):一种提出的强化学习训练范式,让大型语言模型(LLM)在通用代码沙箱环境中使用基于上下文的通用领域数据进行训练,旨在提升其泛化能力。
- LLM-RL:基线强化学习方法,模型在普通LLM模式下生成轨迹,并基于最终输出的正确性获得奖励,用于训练模型处理上下文任务而不涉及沙箱交互。
- SWE-RL:指在沙箱环境中针对软件工程任务进行强化学习训练的方法,依赖于特定领域的数据。
- 能力使用率:衡量模型利用沙箱核心能力(计算、外部资源访问、文件管理)的指标,计算为特定能力调用次数与总交互轮次的比例。
- Prefill:一种快速的token处理阶段(由Dao等人于2022年提出),用于处理已知的、非自回归生成的输入token,例如环境执行返回的结果。