← 返回列表

🤖 系统

📄 Abstract - Enhancing Transformer Out-of-Distribution Generalization via Recursive Latent Space Reasoning

⏳ 正在获取摘要...

顶级标签: theory

📄 论文总结

通过递归潜在空间推理提升Transformer分布外泛化能力 / Enhancing Transformer Out-of-Distribution Generalization via Recursive Latent Space Reasoning

1️⃣ 一句话总结

本研究提出了一种基于递归Transformer架构的创新方法，通过输入自适应计算、算法监督、潜在空间离散化和自校正机制，显著提升了Transformer模型在复杂数学推理任务上的分布外泛化能力。

2️⃣ 论文创新点

1. 循环Transformer块与输入自适应计算

创新点：采用循环Transformer结构，根据输入计算图的深度动态调整计算迭代次数，实现计算时间与问题复杂度的自适应匹配
区别/改进：相比传统思维链的线性标记生成，循环结构引入对递归解决方案的归纳偏置，支持并行处理整个上下文
意义：实现了输入自适应计算，是处理可变复杂度任务和实现OOD泛化到更大图的关键能力，计算效率更高，内存利用更好

2. 潜在空间算法监督与离散化

创新点：在模型潜在表示空间中直接监督每个循环步骤，并通过离散化机制在迭代间锚定表示
区别/改进：通过算法对齐损失确保模型与目标算法的逐步执行对齐，离散化强制中间表示在结构化空间中保持稳定
意义：支持模型在潜在空间中直接学习迭代算法，促进了真正可扩展算法过程的模拟，增强了表示的稳定性和可解释性

3. 学习自校正机制

创新点：在训练中随机破坏值组件，强制模型学习检测和校正中间计算错误
区别/改进：增强了模型对错误传播的鲁棒性，使其能够在多步计算中从错误中恢复
意义：提高了算法稳定性，使模型能够在复杂推理任务中保持准确性

3️⃣ 主要结果与价值

结果亮点

在GSM8K风格的模块化算术计算图任务上验证了方法的有效性
相比标准思维链训练能处理更大规模的图结构问题
实现了向比训练数据大数倍的输入的分布外泛化
在计算图大小N=128的测试中展示了强大的泛化能力

实际价值

为Transformer网络中本地化、可扩展的潜在空间推理提供了架构方法
展示了强大的算法泛化能力，特别适用于数学问题求解
提高了模型处理不同复杂度问题的能力
增强了推理的稳定性和组合性

4️⃣ 术语表

Transformer：现代语言模型的基础架构，本文重点研究其分布外泛化能力
Out-of-distribution (OOD) generalization：分布外泛化，指模型在训练分布之外的新场景中可靠应用所学知识的能力，特别是在算法推理中从较小/简单问题实例泛化到更大/更复杂实例的能力
Chain-of-Thought (CoT)：思维链技术，通过在训练中提供参考解题过程的监督，增强模型推理能力，最初是提示技术，现已扩展到训练流程
Adaptive Computation Time (ACT)：自适应计算时间机制，允许模型根据输入需求动态调整计算步骤数
computation graph：计算图，有向无环图，节点对应变量，边描述计算依赖，用于表示数学计算网络
Mechanistic Interpretability：机制可解释性，通过分析模型内部机制来理解其如何执行任务的研究领域，常使用电路分析和因果干预方法
Algorithm Alignment Loss：算法对齐损失，用于在每次循环迭代t时惩罚在计算深度小于等于t的节点上预测值的错误，以监督模型与目标算法对齐
Recurrent Transformer Block：循环Transformer块，构成循环步骤核心计算的处理模块
self-correction：自校正，模型检测和校正中间计算错误的机制

📄 打开原文 PDF