arXiv ID:
2602.21585
arXiv 提交日期: 2026-02-25
Duel-Evolve:基于大语言模型自我偏好的无奖励测试时优化方法 / Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences
1️⃣ 一句话总结
这篇论文提出了一种名为Duel-Evolve的新方法,它让大语言模型在测试时通过比较自己生成的多个候选答案的优劣来迭代优化输出,无需依赖外部评分或奖励模型,就能在数学和代码生成等任务上显著提升性能。