🤖 系统
11-30 17:44
📄 论文总结
每个问题都有其价值:基于显式人类价值的强化学习 / Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values
1️⃣ 一句话总结
这项研究提出了一种新方法,通过将人类对不同问题重要程度的量化评估直接融入奖励函数,让大语言模型在训练时不仅能提升答案准确性,还能学会根据问题价值高低自动调整回答的详略程度。