arXiv最新AI论文速览速学

🔍

标签: #guardrails ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: SentGuard: Sentence-Level Streaming Guardrails for Large Language Models 06-02

arXiv ID: 2606.02041

arXiv 提交日期: 2026-06-01

llm model evaluation guardrails streaming moderation safety benchmark sentence-level real-time

SentGuard：面向大语言模型的句子级流式防护栏 / SentGuard: Sentence-Level Streaming Guardrails for Large Language Models

1️⃣ 一句话总结

SentGuard提出了一种新颖的句子级安全监控方法，在大型语言模型逐句输出内容时实时检查每个句子的安全性，既避免了输出完整回复后才拦截的滞后问题，也克服了逐字检查因语义不完整而误判的缺陷，实验表明它能高效识别90.5%的安全风险，同时误报率较低。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19940

arXiv 提交日期: 2026-05-19

llm systems guardrails foundation models safety runtime control socially sensitive

面向社交敏感领域基础模型的机器人启发式护栏方法 / Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

1️⃣ 一句话总结

本文借鉴机器人控制思想，提出一种能在教育、心理健康等敏感领域实时约束AI对话行为、防止有害交互轨迹的框架，并在自闭症治疗、学校行为干预等实际场景中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24826

arXiv 提交日期: 2026-04-27

llm agents model evaluation security guardrails benchmark risk detection comparative evaluation

AI智能体安全防护栏的对比评估 / A Comparative Evaluation of AI Agent Security Guardrails

1️⃣ 一句话总结

本文通过对比评测DKnownAI Guard与AWS、Azure、Lakera三款主流AI安全防护产品，发现DKnownAI Guard在识别针对智能体自身的攻击和有害内容请求时，达到了96.5%的最高召回率和90.4%的最高真负率，综合表现最佳。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20436

arXiv 提交日期: 2026-04-22

llm agents software engineering guardrails vibe coding architectural drift agent behavior

Shift-Up：AI原生软件开发中软件工程护栏框架——初步发现 / Shift-Up: A Framework for Software Engineering Guardrails in AI-native Software Development -- Initial Findings

1️⃣ 一句话总结

该论文提出了一个名为Shift-Up的框架，通过将可执行需求、架构模型和架构决策记录等传统软件工程方法转化为结构化的“护栏”，来引导和约束AI（特别是生成式AI）在软件开发中的行为，从而避免代码质量下降、架构混乱等问题，让开发者能更多地专注于高层次的设计和验证工作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05339

arXiv 提交日期: 2025-12-05

llm systems model evaluation safety moderation instruction fine-tuning guardrails taxonomy adaptation benchmark

具有鲁棒护栏的、可适应分类体系的大语言模型审核模型 / Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为Roblox Guard 1.0的新型大语言模型审核系统，它通过指令微调，能够理解和阻止各种新的、未见过的有害内容，从而为大语言模型的应用提供更全面、更灵活的安全防护。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.02041

1️⃣ 一句话总结

arXiv ID: 2605.19940

1️⃣ 一句话总结

arXiv ID: 2604.24826

1️⃣ 一句话总结

arXiv ID: 2604.20436

1️⃣ 一句话总结

arXiv ID: 2512.05339

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.02041 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19940 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24826 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20436 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05339 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.02041

arXiv ID: 2605.19940

arXiv ID: 2604.24826

arXiv ID: 2604.20436

arXiv ID: 2512.05339