arXiv ID:
2510.08240
arXiv 提交日期: 2025-10-09
对齐华尔兹:联合训练智能体协作实现安全性 / The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
1️⃣ 一句话总结
这篇论文提出了一种名为WaltzRL的新方法,通过让对话智能体和反馈智能体协同训练,共同提升大语言模型的安全性,既减少了有害内容的生成,也避免了过度拒绝正常请求的问题。