arXiv ID:
2601.22146
FineInstructions:将合成指令数据扩展至预训练规模 / FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
1️⃣ 一句话总结
这篇论文提出了一种新方法,能够将海量的互联网预训练文本自动转化为数十亿条高质量的指令-回答对,从而让大语言模型从一开始就通过指令调优目标进行预训练,最终在回答用户提问的任务上取得了比传统预训练方法更好的效果。