arXiv ID:
2509.04500
arXiv 提交日期: 2025-09-02
面向可信度的上下文工程:混合与不当上下文下的Rescorla-Wagner引导 / Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts
1️⃣ 一句话总结
这项研究揭示了大型语言模型在处理混合上下文时容易受到少量不当内容影响的脆弱性,并提出了一种基于神经科学模型的微调方法,能有效引导模型忽略有害信息,显著提升回答质量和安全性。