🤖 系统
12-02 15:23
Xmodel-2.5:一个13亿参数的数据高效推理小语言模型 / Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
1️⃣ 一句话总结
这篇论文提出了一个名为Xmodel-2.5的13亿参数小语言模型,它通过创新的训练方法(如最大更新参数化、分阶段训练课程和优化器切换)实现了高效推理能力,旨在以较低的计算成本替代大型模型,适用于边缘或成本敏感的场景。
请先 登录 后再提交论文
Xmodel-2.5:一个13亿参数的数据高效推理小语言模型 / Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
这篇论文提出了一个名为Xmodel-2.5的13亿参数小语言模型,它通过创新的训练方法(如最大更新参数化、分阶段训练课程和优化器切换)实现了高效推理能力,旨在以较低的计算成本替代大型模型,适用于边缘或成本敏感的场景。
ARC-编码器:为大型语言模型学习压缩文本表示 / ARC-Encoder: learning compressed text representations for large language models
这篇论文提出了一种名为ARC-Encoder的通用文本压缩器,它能将长文本压缩成更少的连续表示,从而在不修改现有大型语言模型结构的情况下,显著提升推理效率并保持高性能,且一个编码器可适配多种不同模型。