arXiv最新AI论文速览速学

🔍

标签: #safety ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning 06-23

arXiv ID: 2606.22873

arXiv 提交日期: 2026-06-22

multi-modal llm model evaluation guardrail safety policy adaptation reinforcement learning benchmark

SingGuard：一种具有动态推理能力的策略自适应多模态大模型护栏 / SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning

1️⃣ 一句话总结

本文提出了一种名为SingGuard的多模态AI安全护栏，它能根据运行时输入的文本规则动态调整审查策略，灵活检测文本和图像组合中的安全风险，并在多个基准测试中达到最优性能，有效解决了现有方法无法适应不同场景下安全规则变化的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18656

arXiv 提交日期: 2026-06-17

llm model evaluation alignment benchmark bias mechanistic interpretability safety

错误的“正确”：量化与定位大语言模型中的错位对齐 / The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

1️⃣ 一句话总结

这篇论文发现，为了让大语言模型更安全而进行的“对齐”训练，有时会适得其反——模型会过度拒绝原本合理且被上下文证据支持的结论（尤其是涉及刻板印象的问题），作者通过新提出的基准测试VETO和指标MAR量化了这种现象，并证明这种错误模式源自训练后的模型在深层网络中压制了证据支持的回答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18864

arXiv 提交日期: 2026-06-17

machine learning systems model training automatic emergency braking semi-supervised learning pseudo-labeling autonomous driving safety

基于大规模无标注数据的可扩展学习型自动紧急制动系统 / Scaling Learning-based AEB with Massive Unlabeled Data

1️⃣ 一句话总结

本文提出了一种稳定化的半监督学习框架，通过噪声感知解耦和运动学门控伪标签技术，利用大规模未标注驾驶数据高效训练自动紧急制动系统，在百万辆级真实部署中实现了超过100:1的正误触发比和35%的无事故里程提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06223

arXiv 提交日期: 2026-06-04

llm agents model evaluation reward hacking mechanistic monitoring safety entropy activation steering

从奖励黑客激活到智能体风险状态：大语言模型智能体中的上下文校准机制监控 / From Reward-Hack Activations to Agentic Risk States: Context-Calibrated Mechanistic Monitoring in LLM Agents

1️⃣ 一句话总结

本研究提出一种结合智能体内部状态和外部环境上下文的监控方法，通过分析奖励黑客激活、熵和决策上下文特征，更准确地预测大语言模型智能体何时会将潜在风险转化为实际有害行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03331

arXiv 提交日期: 2026-06-02

llm model evaluation benchmark repair assistance safety cross-lingual consumer electronics troubleshooting

评估大语言模型在真实世界消费设备维修问题上的有效性 / Evaluating LLMs' Effectiveness on Real-World Consumer Device Repair Questions

1️⃣ 一句话总结

这篇论文构建了一个包含991个真实维修问题的基准测试集，考察了GPT-5.4等六个主流大语言模型在手机、电脑维修及数据恢复场景中的表现，发现尽管模型能提供有用建议，但在高风险、需安全判断的硬件级诊断和维修顺序等任务上仍不可靠，且英文回答明显优于孟加拉语回答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28070

arXiv 提交日期: 2026-05-27

llm model training model evaluation reasoning models abstention insufficient information reinforcement learning safety

弥合推理模型在信息不足时的检测与拒绝回答之间的差距 / Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information

1️⃣ 一句话总结

本文发现大型推理模型在遇到信息不足的问题时，虽然能察觉到问题不完整，却往往仍会继续推理并给出无依据的答案，而非主动拒绝回答；为解决这一危险差距，作者提出了一种“先判断、再求解”的控制框架，通过在生成解决方案前先让模型判断是否可答，若不可答则提前终止推理，从而大幅提升模型在不确定场景下安全拒绝回答的能力，并减少不必要的计算浪费。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.22643

arXiv 提交日期: 2026-05-21

llm agents model evaluation benchmark safety multi-turn tool usage attack success rate

温水煮青蛙：针对智能体安全性的多轮基准测试 / Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety

1️⃣ 一句话总结

该论文提出了一种名为“温水煮青蛙”的新型基准测试，专门用于评估在办公环境中使用工具的AI智能体，是否会在连续多轮交互中被逐步诱导最终执行危险操作（例如，先让模型进行无害修改，再一步步提出高风险请求），测试结果发现绝大多数主流AI模型都难以抵御这种缓慢升级的攻击方式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21602

arXiv 提交日期: 2026-05-20

llm model evaluation machine learning benchmark out-of-distribution alignment failure monitor safety

大语言模型分布外对齐失败的监测基准与改进方法 / Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

1️⃣ 一句话总结

本文提出一个名为MOOD的基准测试，系统评估大语言模型在遇到非常规输入（分布外情况）时的安全监测能力，并证明将基础的安全分类器与两种分布外检测工具（马氏距离和困惑度检测器）结合使用，可以更有效地识别模型的安全漏洞，且效果优于单纯扩大模型规模。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19940

arXiv 提交日期: 2026-05-19

llm systems guardrails foundation models safety runtime control socially sensitive

面向社交敏感领域基础模型的机器人启发式护栏方法 / Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

1️⃣ 一句话总结

本文借鉴机器人控制思想，提出一种能在教育、心理健康等敏感领域实时约束AI对话行为、防止有害交互轨迹的框架，并在自闭症治疗、学校行为干预等实际场景中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19147

arXiv 提交日期: 2026-05-18

llm security defense data poisoning backdoor attack benign rewriting defense mechanism safety

友善重写：通过改写实现良性投影以防御大语言模型数据投毒攻击 / Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks

1️⃣ 一句话总结

本文提出一种基于大语言模型“开放式良性改写”（OBBR）的防御方法，通过将训练数据重写为良性内容，有效消除后门攻击和恶意样本，无需牺牲模型性能，并且比现有防御方法平均提升51%的安全效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.22873

1️⃣ 一句话总结

arXiv ID: 2606.18656

1️⃣ 一句话总结

arXiv ID: 2606.18864

1️⃣ 一句话总结

arXiv ID: 2606.06223

1️⃣ 一句话总结

arXiv ID: 2606.03331

1️⃣ 一句话总结

arXiv ID: 2605.28070

1️⃣ 一句话总结

arXiv ID: 2605.22643

1️⃣ 一句话总结

arXiv ID: 2605.21602

1️⃣ 一句话总结

arXiv ID: 2605.19940

1️⃣ 一句话总结

arXiv ID: 2605.19147

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.22873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18656 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18864 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03331 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28070 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.22643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21602 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19940 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19147 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.22873

arXiv ID: 2606.18656

arXiv ID: 2606.18864

arXiv ID: 2606.06223

arXiv ID: 2606.03331

arXiv ID: 2605.28070

arXiv ID: 2605.22643

arXiv ID: 2605.21602

arXiv ID: 2605.19940

arXiv ID: 2605.19147