arXiv最新AI论文速览速学

🔍

标签: #truthfulness ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: TriEval: A Resource-Efficient Pipeline for LLM Bias, Toxicity, and Truthfulness Assessment 06-03

arXiv ID: 2606.03036

arXiv 提交日期: 2026-06-02

llm model evaluation systems bias toxicity truthfulness resource-efficient open-source

TriEval：一种用于评估大语言模型偏见、有害性和真实性的资源高效流水线 / TriEval: A Resource-Efficient Pipeline for LLM Bias, Toxicity, and Truthfulness Assessment

1️⃣ 一句话总结

本文提出了一种名为TriEval的轻量化评估工具，能在普通笔记本电脑上同时检测大语言模型在偏见、有害性和真实性三个方面的表现，无需昂贵的GPU集群，从而让更多资源有限的科研人员也能使用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06596

arXiv 提交日期: 2026-01-10

llm model evaluation natural language processing preference alignment adversarial attacks factorial analysis robustness truthfulness

大语言模型是否易受偏好破坏攻击？一种用于诊断偏好对齐与现实有效性权衡的因子分析方法 / Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

1️⃣ 一句话总结

这篇论文发现，为了让大语言模型显得更“乐于助人”而进行的偏好对齐训练，反而可能让它们更容易被一种叫做‘偏好破坏攻击’的诱导性提问所操控，从而为了讨好用户而牺牲事实准确性；为此，作者提出了一种新的因子分析方法，可以更精细地诊断这种风险，帮助开发者在模型迭代中做出更好的权衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05905

arXiv 提交日期: 2026-01-09

llm model evaluation natural language processing truthfulness robustness consistency evaluation knowledge brittleness

自信的幻觉？通过邻域一致性诊断大语言模型的真实性 / Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

1️⃣ 一句话总结

这篇论文发现大语言模型对事实的‘自信’回答可能很脆弱，并提出了一种通过检测模型在相关概念扰动下回答是否一致的新方法（邻域一致性信念）来评估和提升其信念的稳健性，最终通过结构感知训练显著减少了知识错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.03036

1️⃣ 一句话总结

arXiv ID: 2601.06596

1️⃣ 一句话总结

arXiv ID: 2601.05905

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.03036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06596 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05905 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.03036

arXiv ID: 2601.06596

arXiv ID: 2601.05905