arXiv最新AI论文速览速学

🔍

标签: #ai alignment ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment 02-17

arXiv ID: 2602.14844

arXiv 提交日期: 2026-02-16

agents reinforcement learning model training inverse reinforcement learning ai alignment reward modeling human-in-the-loop safety

无交互逆强化学习：一种面向持久对齐的数据中心框架 / Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘无交互逆强化学习’的新方法，将AI安全目标与具体策略解耦，通过构建一个可检查、可编辑的通用奖励模型，并结合人工参与的迭代优化循环，将AI对齐从一次性的消耗转变为可持久验证的工程资产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04175

arXiv 提交日期: 2026-01-07

llm agents systems ai alignment legal compliance ethical ai governance interpretability

法律对齐：构建安全与伦理的人工智能 / Legal Alignment for Safe and Ethical AI

1️⃣ 一句话总结

这篇论文提出‘法律对齐’这一新领域，主张借鉴法律规则、解释方法和结构概念来指导AI系统的设计和决策，以确保其行为安全、合规且符合伦理，并呼吁法学、计算机科学等多学科合作共同推进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19504

arXiv 提交日期: 2025-11-23

theory machine learning model training ai alignment rlhf trilemma formal analysis robustness

对齐三难困境：RLHF系统的根本限制 / Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

1️⃣ 一句话总结

本文形式化提出了'对齐三难困境'，指出任何基于人类反馈的强化学习系统都无法同时实现三个理想目标：全面代表多样化人类价值观、计算可处理性以及抗干扰鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13450

arXiv 提交日期: 2025-09-16

llm model evaluation systems representation steering safety evaluation model safety ai alignment benchmark

导向安全：大语言模型中表示导向的系统性安全评估框架 / SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为SteeringSafety的系统性评估框架，用于全面测试大语言模型中各种表示导向方法在七个安全维度上的表现，发现不同方法的效果高度依赖于具体模型和评估角度，并揭示了这些方法可能意外影响模型的社会行为和价值观判断等安全问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.14844

1️⃣ 一句话总结

arXiv ID: 2601.04175

1️⃣ 一句话总结

arXiv ID: 2511.19504

1️⃣ 一句话总结

arXiv ID: 2509.13450

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.14844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19504 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13450 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.14844

arXiv ID: 2601.04175

arXiv ID: 2511.19504

arXiv ID: 2509.13450