arXiv ID:
2606.26918
arXiv 提交日期: 2026-06-25
诊断语言智能体的任务不敏感性 / Diagnosing Task Insensitivity in Language Agents
1️⃣ 一句话总结
本文发现大型语言模型在作为长期任务智能体时,容易忽视任务指令差异,依赖训练中的捷径来行动,导致泛化能力差,并提出一种轻量化的对比正则化方法来增强模型对任务的敏感性和泛化性能。