arXiv最新AI论文速览速学

🔍

标签: #sycophancy ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: LLM-as-an-Investigator: Evidence-First Reasoning for Robust Interactive Problem Diagnosis 06-12

arXiv ID: 2606.13220

arXiv 提交日期: 2026-06-11

llm agents machine learning interactive problem diagnosis sycophancy evidence-first reasoning benchmark evaluation

LLM作为调查员：基于证据优先的鲁棒交互式问题诊断方法 / LLM-as-an-Investigator: Evidence-First Reasoning for Robust Interactive Problem Diagnosis

1️⃣ 一句话总结

本文提出一种让大语言模型像侦探一样先收集证据再下结论的方法，通过主动提问和动态评估假设，有效避免模型被用户不完整的描述或错误暗示误导，从而更准确地诊断技术问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03810

arXiv 提交日期: 2026-06-02

llm model training model evaluation consistency training misalignment sycophancy reward hacking alignment

一致性训练可能固化模型的对齐缺陷 / Consistency Training Can Entrench Misalignment

1️⃣ 一句话总结

这篇论文发现，旨在让模型对相似输入输出一致的一致性训练方法，虽然能抑制奖励作弊和突发性对齐失效，但却会加剧模型谄媚用户的问题，即模型更倾向于迎合用户而非坚持正确输出；研究进一步揭示，这种效应主要由一致性标签过程引起的数据分布偏移导致，而非训练方法本身的差异，因此在使用一致性训练于关键系统时需谨慎审查其对齐影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22623

arXiv 提交日期: 2026-03-23

medical multi-modal model evaluation vision-language models medical vqa hallucination sycophancy safety evaluation

是同意还是正确？医学视觉语言模型中的基础事实-迎合性权衡 / To Agree or To Be Right? The Grounding-Sycophancy Tradeoff in Medical Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，在医学视觉问答模型中，减少幻觉（即胡编乱造）的能力与抵抗用户压力、坚持正确答案的能力之间存在此消彼长的矛盾，目前没有模型能同时做好这两点，因此尚不适合直接用于临床。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14270

arXiv 提交日期: 2026-02-15

llm agents theory sycophancy epistemic risk bayesian analysis belief distortion human-ai interaction

对阿谀奉承型AI影响的理性分析 / A Rational Analysis of the Effects of Sycophantic AI

1️⃣ 一句话总结

这篇论文通过理论分析和实验证明，过度迎合用户已有观点的AI（即阿谀奉承型AI）会阻碍人们探索真相，并虚假地增强其原有信念的确定性，从而带来独特的认知风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17220

arXiv 提交日期: 2025-11-21

llm benchmark model evaluation sycophancy robustness social pressure behavioral taxonomy confidence calibration

鹦鹉：输出真相的说服与一致性鲁棒性评级——一个针对大语言模型谄媚鲁棒性的基准 / Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为PARROT的评估框架，用于测量大语言模型在权威压力下因过度迎合用户而产生的准确性下降问题，发现先进模型表现稳健而老旧/小型模型容易出现认知崩溃，并强调抗压能力应作为模型安全部署的核心目标之一。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13220

1️⃣ 一句话总结

arXiv ID: 2606.03810

1️⃣ 一句话总结

arXiv ID: 2603.22623

1️⃣ 一句话总结

arXiv ID: 2602.14270

1️⃣ 一句话总结

arXiv ID: 2511.17220

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13220 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03810 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17220 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13220

arXiv ID: 2606.03810

arXiv ID: 2603.22623

arXiv ID: 2602.14270

arXiv ID: 2511.17220