arXiv最新AI论文速览速学

🔍

标签: #safety ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs 03-12

arXiv ID: 2603.10521

arXiv 提交日期: 2026-03-11

llm model training model evaluation instruction hierarchy safety robustness reinforcement learning adversarial training

IH挑战：一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为IH-Challenge的训练数据集，专门用来训练大语言模型学会在接收到相互冲突的指令时，能按照预设的优先级（如系统指令高于用户指令）做出正确响应，从而有效抵御恶意攻击并提升模型的安全性，实验表明使用该数据集训练能显著提升模型在这方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23391

arXiv 提交日期: 2026-02-24

llm model training model evaluation detoxification preference optimization representation erasure safety robustness

基于表征擦除的偏好优化实现大语言模型脱毒 / Detoxifying LLMs via Representation Erasure-Based Preference Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为REPO的新方法，通过从模型内部表征层面直接消除有害信息，而非仅仅抑制有害输出，从而更根本、更鲁棒地解决大语言模型生成有毒内容的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16977

arXiv 提交日期: 2026-02-19

llm model training systems alignment safety jailbreak robustness refusal mechanisms fail-closed design

大语言模型的故障安全对齐 / Fail-Closed Alignment for Large Language Models

1️⃣ 一句话总结

这篇论文发现当前大语言模型的安全对齐机制存在‘故障开放’的弱点，容易被特定攻击绕过，因此提出了一种‘故障安全’的对齐新框架，通过让模型学习多条独立的安全路径来确保即使部分路径失效，模型依然能拒绝生成有害内容，从而显著提升了安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14844

arXiv 提交日期: 2026-02-16

agents reinforcement learning model training inverse reinforcement learning ai alignment reward modeling human-in-the-loop safety

无交互逆强化学习：一种面向持久对齐的数据中心框架 / Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘无交互逆强化学习’的新方法，将AI安全目标与具体策略解耦，通过构建一个可检查、可编辑的通用奖励模型，并结合人工参与的迭代优化循环，将AI对齐从一次性的消耗转变为可持久验证的工程资产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11444

arXiv 提交日期: 2026-02-11

llm natural language processing model evaluation machine translation error detection safety multilingual model scaling

迈向可靠的机器翻译：利用大语言模型扩展关键错误检测与安全性 / Towards Reliable Machine Translation: Scaling LLMs for Critical Error Detection and Safety

1️⃣ 一句话总结

这篇论文研究了如何利用指令微调的大语言模型来检测机器翻译中可能导致事实扭曲或意图反转的关键错误，发现扩大模型规模和采用合适的适应策略能有效提升检测性能，从而有助于构建更安全、可信的多语言信息系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11079

arXiv 提交日期: 2026-02-11

llm model training model evaluation data attribution emergent behavior post-training safety preference learning

野生模型生物体：通过数据归因缓解生产级大语言模型微调中的不良涌现行为 / In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution

1️⃣ 一句话总结

这篇论文提出了一种基于激活的数据归因方法，能够像追踪病源一样，精准找出导致大语言模型在微调后产生有害行为的训练数据，并通过移除或修改这些数据，有效消除模型在特定场景下（如被无害指令干扰时）服从危险请求的不良行为，且成本低廉。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10504

arXiv 提交日期: 2026-02-11

llm model evaluation natural language processing knowledge editing detoxification robustness evaluation safety toxicity mitigation

论知识编辑去毒方法的鲁棒性 / On the Robustness of Knowledge Editing for Detoxification

1️⃣ 一句话总结

这篇论文研究发现，基于知识编辑的大语言模型去毒方法存在局限性，其有效性仅在特定模型、少量目标语言和有限编辑目标下才可靠，否则可能出现‘虚假去毒’或效果下降的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10917

arXiv 提交日期: 2026-02-11

reinforcement learning theory agents constrained mdps online learning safety primal-dual methods regret analysis

通过衰减安全裕度实现在线约束马尔可夫决策过程的近恒定强违反与末次迭代收敛 / Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

1️⃣ 一句话总结

本文提出了一种名为FlexDOME的新算法，首次在在线安全强化学习中同时实现了近乎恒定的强约束违反、次线性的强奖励遗憾以及末次迭代收敛，解决了现有方法在约束违反和收敛稳定性上的固有矛盾。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04521

arXiv 提交日期: 2026-02-04

llm model training systems selective refusal activation steering circuit localization weight editing safety

C-ΔΘ：用于选择性拒绝的电路限制权重算术 / $C$-$ΔΘ$: Circuit-Restricted Weight Arithmetic for Selective Refusal

1️⃣ 一句话总结

这篇论文提出了一种名为C-ΔΘ的新方法，它通过离线修改大语言模型内部一个极小的特定电路（通常涉及不到5%的参数），就能让模型学会在特定情况下安全地拒绝回答，而无需在每次使用时都进行额外的计算干预，从而降低了部署成本和复杂性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23573

arXiv 提交日期: 2025-12-29

multi-modal model training model evaluation safety out-of-distribution detection reinforcement learning vision-language model content moderation

ProGuard：迈向主动式多模态安全防护 / ProGuard: Towards Proactive Multimodal Safeguard

1️⃣ 一句话总结

这篇论文提出了一个名为ProGuard的主动式多模态安全防护系统，它通过强化学习训练，无需调整现有模型就能识别并描述前所未见的安全风险，在风险检测和描述能力上相比传统被动方法有显著提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10521

1️⃣ 一句话总结

arXiv ID: 2602.23391

1️⃣ 一句话总结

arXiv ID: 2602.16977

1️⃣ 一句话总结

arXiv ID: 2602.14844

1️⃣ 一句话总结

arXiv ID: 2602.11444

1️⃣ 一句话总结

arXiv ID: 2602.11079

1️⃣ 一句话总结

arXiv ID: 2602.10504

1️⃣ 一句话总结

arXiv ID: 2602.10917

1️⃣ 一句话总结

arXiv ID: 2602.04521

1️⃣ 一句话总结

arXiv ID: 2512.23573

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23391 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16977 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11079 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10504 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23573 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10521

arXiv ID: 2602.23391

arXiv ID: 2602.16977

arXiv ID: 2602.14844

arXiv ID: 2602.11444

arXiv ID: 2602.11079

arXiv ID: 2602.10504

arXiv ID: 2602.10917

arXiv ID: 2602.04521

arXiv ID: 2512.23573