arXiv ID:
2601.18292
TriPlay-RL:用于大语言模型安全对齐的三角色自博弈强化学习框架 / TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
1️⃣ 一句话总结
这篇论文提出了一个名为TriPlay-RL的强化学习框架,通过让攻击者、防御者和评估者三个角色在闭环中自动博弈与协同进化,显著提升了大语言模型的安全防御能力、攻击多样性和评估准确性,且无需人工标注。