🤖 系统
09-01 15:51
📄 论文总结
通过Token Order Prediction改进语言建模
Improving Language Modeling with Token Order Prediction
1️⃣ 一句话总结
论文提出Token Order Prediction (TOP)作为一种新的辅助训练目标,通过预测未来token的出现顺序而非精确预测具体token,在计算效率和多任务性能上均优于传统的Next-Token Prediction (NTP)和Multi-Token Prediction (MTP)方法。
2️⃣ 论文创新点
1. Token Order Prediction (TOP)
- 创新点是什么:使用排序损失预测后续token的出现顺序,而非精确预测未来token
- 与已有方法的区别/改进:相比MTP只需一个额外的unembedding层,而非多个transformer层,计算开销更小
- 为什么有意义:在标准NLP基准测试中整体优于NTP和MTP,且在不同规模模型上均有效
2. ListNet排序损失应用
- 创新点是什么:将学习排序中的ListNet方法应用于语言建模,处理非one-hot的目标得分向量
- 与已有方法的区别/改进:使用softmax(y)·log(softmax(û))作为排序损失函数
- 为什么有意义:允许模型预测token的接近度得分而非概率分布
3️⃣ 主要结果与价值
实验结果亮点
- 在340M、1.8B和7B参数模型上,TOP在八个标准NLP基准测试中整体优于NTP和MTP
- 随着模型规模增大(到7B),TOP性能提升更明显,而MTP在非代码任务上扩展性不佳
实际应用价值
- TOP方法计算效率高,只需单个额外线性层,适合大规模模型训练
- 提高了语言模型的序列构建能力,在通用NLP任务上表现优异
4️⃣ 术语表
- Token Order Prediction (TOP):通过排序损失预测后续token顺序的辅助训练目标,使用排序损失训练模型
- Multi-Token Prediction (MTP):多令牌预测,通过添加并行Transformer层预测多个未来令牌的训练方法
- Next-Token Prediction (NTP):下一令牌预测,标准语言模型训练目标,通过交叉熵损失优化序列预测
- ListNet:从学习排序文献中借鉴的列表排序损失方法,用于处理得分向量目标