arXiv ID:
2601.09195
arXiv 提交日期: 2026-01-14
ProFit:通过概率引导的令牌选择在监督微调中利用高价值信号 / ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection
1️⃣ 一句话总结
这篇论文提出了一种名为ProFit的新方法,通过智能地屏蔽语言模型中那些低概率、可替换的词语来防止训练时的死记硬背,从而用更低的成本让大模型在推理和数学任务上表现得更好。