🤖 系统
12-01 08:31
对齐三难困境:RLHF系统的根本限制 / Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
1️⃣ 一句话总结
本文形式化提出了'对齐三难困境',指出任何基于人类反馈的强化学习系统都无法同时实现三个理想目标:全面代表多样化人类价值观、计算可处理性以及抗干扰鲁棒性。
请先 登录 后再提交论文
对齐三难困境:RLHF系统的根本限制 / Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
本文形式化提出了'对齐三难困境',指出任何基于人类反馈的强化学习系统都无法同时实现三个理想目标:全面代表多样化人类价值观、计算可处理性以及抗干扰鲁棒性。
导向安全:大语言模型中表示导向的系统性安全评估框架 / SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs
这篇论文提出了一个名为SteeringSafety的系统性评估框架,用于全面测试大语言模型中各种表示导向方法在七个安全维度上的表现,发现不同方法的效果高度依赖于具体模型和评估角度,并揭示了这些方法可能意外影响模型的社会行为和价值观判断等安全问题。