arXiv ID:
2604.01787
arXiv 提交日期: 2026-04-02
DEFT:基于分布引导的高效微调用于人类对齐 / DEFT: Distribution-guided Efficient Fine-Tuning for Human Alignment
1️⃣ 一句话总结
这篇论文提出了一种名为DEFT的高效微调框架,它通过筛选高质量数据并引导模型输出分布,在提升大语言模型与人类价值观对齐效果的同时,减少了训练成本并保持了模型的泛化能力。