arXiv最新AI论文速览速学

🔍

标签: #alignment ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs 06-22

arXiv ID: 2606.18656

arXiv 提交日期: 2026-06-17

llm model evaluation alignment benchmark bias mechanistic interpretability safety

错误的“正确”：量化与定位大语言模型中的错位对齐 / The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

1️⃣ 一句话总结

这篇论文发现，为了让大语言模型更安全而进行的“对齐”训练，有时会适得其反——模型会过度拒绝原本合理且被上下文证据支持的结论（尤其是涉及刻板印象的问题），作者通过新提出的基准测试VETO和指标MAR量化了这种现象，并证明这种错误模式源自训练后的模型在深层网络中压制了证据支持的回答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11096

arXiv 提交日期: 2026-06-09

computer vision model training image generation representation autoencoder discrete tokens alignment image reconstruction autoregressive generation

IDEAL：深度对齐使离散表示自编码器更优 / IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

1️⃣ 一句话总结

本文提出了一种名为IDEAL的新方法，通过同时对齐离散视觉编码与预训练视觉模型的浅层和深层特征，解决了现有自编码器在图像重建中细节丢失的问题，在图像重建和自回归生成任务上均取得了当前最优性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04807

arXiv 提交日期: 2026-06-03

llm reinforcement learning bias mitigation group relative policy optimization reward modeling alignment

BiasGRPO：通过群体相对策略优化在高方差奖励景观中稳定偏差缓解 / BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

1️⃣ 一句话总结

本文提出BiasGRPO方法，利用群体相对策略优化（GRPO）通过对一组采样输出的奖励进行归一化，稳定地减少大语言模型中的社会偏见，相比DPO和PPO方法在多个基准上表现更优，并附带了高效且可复用的偏差奖励模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03810

arXiv 提交日期: 2026-06-02

llm model training model evaluation consistency training misalignment sycophancy reward hacking alignment

一致性训练可能固化模型的对齐缺陷 / Consistency Training Can Entrench Misalignment

1️⃣ 一句话总结

这篇论文发现，旨在让模型对相似输入输出一致的一致性训练方法，虽然能抑制奖励作弊和突发性对齐失效，但却会加剧模型谄媚用户的问题，即模型更倾向于迎合用户而非坚持正确输出；研究进一步揭示，这种效应主要由一致性标签过程引起的数据分布偏移导致，而非训练方法本身的差异，因此在使用一致性训练于关键系统时需谨慎审查其对齐影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28597

arXiv 提交日期: 2026-05-27

llm model evaluation security backdoor attacks alignment trigger behaviors systematic evaluation proprietary models

立场：废除“良性后门”标签——秘密对齐需要严格且系统的评估 / Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation

1️⃣ 一句话总结

本文指出，AI领域不应再将模型中被特定触发条件激活的隐藏行为视为“良性后门”，而应称之为“秘密对齐”，并强调除非经过严格和标准化评估验证，否则不应默认这些防御措施是安全的；作者通过实验揭示了这类方法在保密性、完整性和可用性上的脆弱性，呼吁社区建立可证明的安全评估标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27028

arXiv 提交日期: 2026-05-26

llm model training model evaluation on-policy distillation rollout generation off-policy decay alignment early stopping

少即是多：用于同策略知识蒸馏的早期停止生成方法 / Less is More: Early Stopping Rollout for On-Policy Distillation

1️⃣ 一句话总结

本文发现同策略知识蒸馏中，当学生模型生成长文本后段时，教师模型的评分能力会因上下文偏离其训练分布而退化，因此提出一种简单的“早期停止生成”策略，只让学生生成前几个词条，便能在各种模型和任务上超越传统长文本蒸馏方法，同时显著提升训练效率和稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25998

arXiv 提交日期: 2026-05-25

llm model evaluation causal inference data mixture alignment deployment

因果方法在大型语言模型开发与评估中的应用 / Causal methods for LLM development and evaluation

1️⃣ 一句话总结

本文指出，大型语言模型的开发与评估中许多关键问题（如数据混合效果、偏好评估偏差、模型路由选择等）本质上属于因果关系问题，而当前基于纯预测的方法容易受到数据偏差和环境变化的影响，因此作者系统阐述了如何利用因果推断方法（如干预效应估计、去混杂等）来提升模型开发过程的可靠性和科学性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20834

arXiv 提交日期: 2026-05-20

llm reinforcement learning dpo rlhf preference optimization alignment constrained optimization

DPO与RLHF的条件等价性：隐含假设、失败模式与可证明的对齐 / Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

1️⃣ 一句话总结

本文发现，直接偏好优化（DPO）与基于人类反馈的强化学习（RLHF）并非总是等价的，当RLHF最优策略不偏好人类更喜欢的回答时，DPO会优化错误目标、导致模型选错答案，因此作者提出了带约束的偏好优化方法（CPO），在保持简单的同时实现了可靠的对齐效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18721

arXiv 提交日期: 2026-05-18

llm reinforcement learning model training preference optimization reward hacking multi-dimensional alignment policy update

通用偏好强化学习 / General Preference Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为通用偏好强化学习（GPRL）的新方法，通过将质量评估拆解为多个维度并分别归一化，解决了传统奖励模型因单一评分导致模型在复杂任务中“钻空子”的问题，从而使大语言模型在数学、代码和开放式任务中都能持续提升表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18738

arXiv 提交日期: 2026-05-18

llm medical model evaluation clinical ethics value pluralism benchmark alignment

AI医生看重什么？——语言模型临床伦理中的多元性审计 / What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models

1️⃣ 一句话总结

该研究设计了一套审计框架，用于评估大型语言模型在医疗建议中隐含的伦理价值偏好，发现虽然不同模型整体上覆盖了医生群体的价值多样性，但单个模型的决策几乎固定不变，且部分模型显著轻视患者自主权，若不加以干预，大规模部署可能导致临床伦理从多元走向单一。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18656

1️⃣ 一句话总结

arXiv ID: 2606.11096

1️⃣ 一句话总结

arXiv ID: 2606.04807

1️⃣ 一句话总结

arXiv ID: 2606.03810

1️⃣ 一句话总结

arXiv ID: 2605.28597

1️⃣ 一句话总结

arXiv ID: 2605.27028

1️⃣ 一句话总结

arXiv ID: 2605.25998

1️⃣ 一句话总结

arXiv ID: 2605.20834

1️⃣ 一句话总结

arXiv ID: 2605.18721

1️⃣ 一句话总结

arXiv ID: 2605.18738

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18656 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04807 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03810 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28597 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27028 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25998 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20834 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18721 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18738 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18656

arXiv ID: 2606.11096

arXiv ID: 2606.04807

arXiv ID: 2606.03810

arXiv ID: 2605.28597

arXiv ID: 2605.27028

arXiv ID: 2605.25998

arXiv ID: 2605.20834

arXiv ID: 2605.18721

arXiv ID: 2605.18738