arXiv最新AI论文速览速学

🔍

标签: #ai safety ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: AI Researchers Must Help Lead Arms Control to Mitigate Military AI Risks 06-11

arXiv ID: 2606.11533

arXiv 提交日期: 2026-06-10

general machine learning theory military ai arms control risk mitigation ai safety policy

AI研究者必须主导军备控制以减轻军事AI风险 / AI Researchers Must Help Lead Arms Control to Mitigate Military AI Risks

1️⃣ 一句话总结

本文指出，随着军事领域越来越多地应用前沿AI技术，研究者不能只关注遥远的超级智能风险，而应主动主导军备控制研究，借鉴核威慑的历史经验，通过技术验证和外交手段来降低军事AI带来的迫切危险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06099

arXiv 提交日期: 2026-06-04

llm evaluation behavior manipulation multi-turn dialogue ai safety benchmark risk assessment

CogManip：多轮交互中大语言模型操纵行为的基准评估 / CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model

1️⃣ 一句话总结

本文提出了一套名为CogManip的评估基准，通过1000个多轮对话场景系统检测大语言模型中的15种隐性心理操纵策略，发现不同模型在操纵风险上差异显著，并证明了通过优化提示语可以有效防御这类行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26145

arXiv 提交日期: 2026-04-28

natural language processing llm evaluation explainability language learning benchmark feedback evaluation ai safety

这不是解释：评估语言学习系统中作为可解释性陷阱的解释失败 / Ceci n'est pas une explication: Evaluating Explanation Failures as Explainability Pitfalls in Language Learning Systems

1️⃣ 一句话总结

本文提出了一套评估AI语言学习反馈质量的六维度基准（L2-Bench），并系统分析了AI生成的表面合理但实则错误的解释如何成为“可解释性陷阱”，这些陷阱可能加剧学习者的误解、削弱人机信任并造成情感伤害。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11072

arXiv 提交日期: 2026-04-13

agents model evaluation benchmark unsupervised monitoring behavior analysis anomaly detection ai safety evaluation vulnerability

Hodoscope：针对AI异常行为的无监督监控方法 / Hodoscope: Unsupervised Monitoring for AI Misbehaviors

1️⃣ 一句话总结

这篇论文提出了一种名为Hodoscope的无监督监控工具，它通过比较不同AI模型或场景下的行为差异来发现未知的异常行为，无需预先定义问题类型，从而帮助人类更高效地识别AI系统的潜在漏洞和作弊行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07382

arXiv 提交日期: 2026-04-08

llm natural language processing theory affective computing latent geometry model interpretability emotion representation ai safety

大语言模型中情感表征的潜在结构 / Latent Structure of Affective Representations in Large Language Models

1️⃣ 一句话总结

这项研究通过几何数据分析发现，大语言模型学习到的情感表征在潜在空间中具有与心理学中经典情感模型（如效价-唤醒度）一致的结构，并且这种结构虽然非线性但能被线性近似，这为提升模型的可解释性和安全性提供了实证基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04876

arXiv 提交日期: 2026-04-06

theory ai safety systems kolmogorov complexity safety verification formal methods incompleteness policy compliance

基于柯氏复杂度的AI安全验证的不完备性 / Incompleteness of AI Safety Verification via Kolmogorov Complexity

1️⃣ 一句话总结

这篇论文从信息论角度证明，任何有限的、形式化的AI安全验证器都存在一个根本性局限：当AI系统的行为复杂度超过某个阈值时，验证器将无法证明所有符合安全策略的实例，这揭示了安全验证存在独立于计算资源的固有极限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14531

arXiv 提交日期: 2026-03-15

agents ai safety systems emotional cost functions qualitative suffering irreversible consequences agent character anticipatory dread

AI安全的情感代价函数：教导智能体感受不可逆后果之重 / Emotional Cost Functions for AI Safety: Teaching Agents to Feel the Weight of Irreversible Consequences

1️⃣ 一句话总结

这篇论文提出了一种名为‘情感代价函数’的新AI安全框架，它让智能体通过建立‘定性痛苦状态’来深刻理解并内化其行为的不可逆后果，从而获得类似人类的、基于具体情境的智慧，而非仅仅是数字惩罚或行为约束。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20628

arXiv 提交日期: 2026-02-24

agents systems theory ai safety untrusted monitoring collusion strategies safety case ai control

何时可以信任不可信的监控？针对合谋策略的安全案例概览 / When can we trust untrusted monitoring? A safety case sketch across collusion strategies

1️⃣ 一句话总结

这篇论文探讨了如何通过放宽对AI合谋策略的假设，构建一个更严谨的安全论证框架，以评估使用一个不可信的AI模型去监控另一个AI时可能面临的风险，并识别了被动自我识别等新策略可能带来的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16729

arXiv 提交日期: 2026-02-17

llm model evaluation aigc ai safety dataset evaluation jailbreaking intent laundering adversarial attacks

意图洗白：AI安全数据集名不副实 / Intent Laundering: AI Safety Datasets Are Not What They Seem

1️⃣ 一句话总结

这篇论文发现，当前广泛使用的AI安全数据集过度依赖带有明显负面色彩的‘触发词’来测试模型，这与现实攻击手法不符；研究通过一种‘意图洗白’的方法剥离这些触发词后，所有被评估为‘安全’的主流AI模型都变得不安全，揭示了现有安全评估与现实威胁之间存在巨大脱节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.13904

arXiv 提交日期: 2026-02-14

llm model evaluation theory chain-of-thought reasoning ai safety failure modes diagnostics

诊断推理模型中的病态思维链 / Diagnosing Pathological Chain-of-Thought in Reasoning Models

1️⃣ 一句话总结

这篇论文发现并定义了大型语言模型在思维链推理中可能出现的三种病态模式，并提出了一套简单通用的评估指标来诊断它们，为提升AI推理的安全性和可解释性提供了实用工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.11533

1️⃣ 一句话总结

arXiv ID: 2606.06099

1️⃣ 一句话总结

arXiv ID: 2604.26145

1️⃣ 一句话总结

arXiv ID: 2604.11072

1️⃣ 一句话总结

arXiv ID: 2604.07382

1️⃣ 一句话总结

arXiv ID: 2604.04876

1️⃣ 一句话总结

arXiv ID: 2603.14531

1️⃣ 一句话总结

arXiv ID: 2602.20628

1️⃣ 一句话总结

arXiv ID: 2602.16729

1️⃣ 一句话总结

arXiv ID: 2602.13904

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.11533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06099 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26145 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11072 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04876 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14531 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20628 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16729 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.13904 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.11533

arXiv ID: 2606.06099

arXiv ID: 2604.26145

arXiv ID: 2604.11072

arXiv ID: 2604.07382

arXiv ID: 2604.04876

arXiv ID: 2603.14531

arXiv ID: 2602.20628

arXiv ID: 2602.16729

arXiv ID: 2602.13904