arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.26697

🤖 系统

11-02 11:16

llm

dynamic decoding end-to-end generation temperature prediction top-p sampling differentiable sampling

📄 论文总结

AutoDeco：实现真正端到端语言生成的动态解码架构 / AutoDeco: Dynamic Decoding Architecture for Truly End-to-End Language Generation

1️⃣ 一句话总结

AutoDeco是一种轻量级架构，通过在标准Transformer上添加预测头，使语言模型能够动态预测每个解码步骤的温度和top-p值，实现真正的端到端生成而无需手动调整超参数。

2️⃣ 论文创新点

1. AutoDeco动态解码架构

创新点：在标准Transformer基础上添加轻量级预测头，动态预测每个token的解码参数（温度和top-p）
区别/改进：将解码过程从静态超参数调整转变为参数化的token级过程
意义：实现真正端到端的语言模型，消除手动调参需求，支持动态自适应解码

2. 可微分soft top-p采样

创新点：使用可微分的soft top-p采样机制替代传统的硬截断方法
区别/改进：解决不可微操作问题，实现端到端优化
意义：这是实现真正端到端语言模型的关键技术，允许模型学习最优解码策略

3. 基于指令的解码控制

创新点：模型能够理解自然语言指令并相应调整解码参数
区别/改进：通过指令控制解码随机性，如'generate with low randomness'
意义：开创可引导和交互式LLM解码的新范式，赋予模型直观解释和响应用户意图的新能力

4. 零延迟推理

创新点：通过内部修改输出概率，推理过程不增加额外延迟
区别/改进：只需一行代码更改即可启用动态解码能力
意义：保持模型使用简便性，同时提升性能

3️⃣ 主要结果与价值

结果亮点

在数学推理任务中平均得分46.05，比基线提升3.5点
在跨域任务（GPQA-Diamond、MMLU-Pro、LiveCodeBenchV6、IFEval）上实现零样本泛化，平均得分提升最高达4.4点
在pass@k评估中提供一致的绝对性能提升，在更高k值时相对误差减少更为显著（pass@64时达18.1%）
仅需400步的微调过程，集成到Qwen、Llama和GPT等主要模型家族中

实际价值

计算开销极小：仅增加4MB内存和1.7%延迟
无需任务匹配监督即可达到接近专家调优的性能
支持动态平衡确定性与随机性策略，学习生成文本的元技能
可作为即插即用模块，易于部署到现有模型中

4️⃣ 术语表

AutoDeco：一种新型架构，使语言模型能够学习控制自身的解码策略，动态预测温度和top-p值，实现LLM端到端生成
端到端生成：真正的端到端生成，无需手动调整解码超参数如温度和top-p
soft top-p采样：可微分的top-p采样方法，使用指数衰减的软掩码替代硬阈值，实现梯度反向传播
零延迟推理：推理过程不增加额外延迟，通过内部修改输出概率实现动态解码能力
pass@k：评估指标，衡量在k次尝试中至少一次成功的概率

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.26697

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. AutoDeco动态解码架构

2. 可微分soft top-p采样

3. 基于指令的解码控制

4. 零延迟推理

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.26697 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. AutoDeco动态解码架构

2. 可微分soft top-p采样

3. 基于指令的解码控制

4. 零延迟推理

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.26697