arXiv ID:
2601.10156
ToolSafe:通过主动的步骤级护栏与反馈增强基于大语言模型的智能体工具调用安全性 / ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback
1️⃣ 一句话总结
这篇论文提出了一个名为ToolSafe的系统,通过一个主动检测工具调用风险的护栏模型和一个反馈驱动的推理框架,显著降低了AI智能体执行危险操作的可能性,同时提升了其在受攻击时正常完成任务的能力。