arXiv最新AI论文速览速学

🔍

标签: #trustworthiness ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.27720

arXiv 提交日期: 2026-04-30

medical multi-modal model evaluation vision-language models medical vqa grounding failures domain adaptation trustworthiness

对前沿视觉-语言模型在可信医疗视觉问答中的审计：定位失败、格式崩溃与领域适配 / Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

1️⃣ 一句话总结

本研究系统测试了多个顶尖AI模型在医疗图像问答任务中的可靠性，发现模型在识别身体部位和病变位置时表现很差（准确率不足20%），且当模型需要先定位再回答时，由于格式错误和定位不准，回答质量反而下降，但通过专项训练可以显著提升模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05826

arXiv 提交日期: 2026-04-07

systems theory general ai regulation trustworthiness human-ai interaction governance agency

人工智能系统中的相互信任与不信任：监管的难题 / Reciprocal Trust and Distrust in Artificial Intelligence Systems: The Hard Problem of Regulation

1️⃣ 一句话总结

这篇论文提出，应将人工智能系统视为具有一定自主性的实体，能够与人类建立相互的信任或不信任关系，并探讨了这种动态关系给AI监管带来的核心挑战和未解难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05952

arXiv 提交日期: 2026-04-07

agents llm model evaluation report generation confidence calibration trustworthiness evidence grounding deliberative search

迈向可信的报告生成：一种具备渐进式置信度估计与校准的深度研究智能体 / Towards Trustworthy Report Generation: A Deep Research Agent with Progressive Confidence Estimation and Calibration

1️⃣ 一句话总结

这篇论文提出了一种新的深度研究智能体，它通过在生成报告的每个步骤中评估和校准其陈述的置信度，来解决现有AI系统可能产生不可靠或虚假信息的问题，从而生成更透明、更值得用户信赖的研究报告。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02960

arXiv 提交日期: 2026-03-03

llm agents theory epistemic agents trustworthiness knowledge ecosystem ai governance calibration

构建可信的人工认知智能体 / Architecting Trust in Artificial Epistemic Agents

1️⃣ 一句话总结

这篇论文提出，随着大型语言模型成为能自主追求知识目标、塑造我们知识环境的‘认知智能体’，我们必须通过确保其可信赖性、与人类认知目标对齐并加强社会知识基础设施，来构建一个有益的人机知识生态系统，防止其导致人类认知能力退化和知识体系偏移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.07264

arXiv 提交日期: 2026-01-12

llm agents model evaluation calibration tool-use agents reinforcement learning trustworthiness uncertainty quantification

置信度二分法：分析与缓解工具使用智能体中的校准错误 / The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

1️⃣ 一句话总结

这篇论文发现，使用不同工具（如网络搜索或代码解释器）的大型语言模型智能体，其表达的信心与实际能力常常不匹配，并提出了一个通过强化学习同时优化任务准确性和信心校准的新方法，让智能体在各种任务中更可靠地表达其不确定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11437

arXiv 提交日期: 2025-12-12

llm medical benchmark multilingual evaluation trustworthiness healthcare safety fairness

CLINIC：评估医疗领域语言模型的多语言可信度 / CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

1️⃣ 一句话总结

这篇论文提出了一个名为CLINIC的多语言医疗基准测试，用于系统评估语言模型在真实性、公平性、安全性等五个关键维度的可信度，结果发现现有模型在多语言医疗场景中存在事实错误、偏见和隐私泄露等问题，为提升全球医疗AI的安全性和适用性奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.04500

arXiv 提交日期: 2025-09-02

llm model training model evaluation context engineering trustworthiness rescorla-wagner safety fine-tuning

面向可信度的上下文工程：混合与不当上下文下的Rescorla-Wagner引导 / Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts

1️⃣ 一句话总结

这项研究揭示了大型语言模型在处理混合上下文时容易受到少量不当内容影响的脆弱性，并提出了一种基于神经科学模型的微调方法，能有效引导模型忽略有害信息，显著提升回答质量和安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27720

1️⃣ 一句话总结

arXiv ID: 2604.05826

1️⃣ 一句话总结

arXiv ID: 2604.05952

1️⃣ 一句话总结

arXiv ID: 2603.02960

1️⃣ 一句话总结

arXiv ID: 2601.07264

1️⃣ 一句话总结

arXiv ID: 2512.11437

1️⃣ 一句话总结

arXiv ID: 2509.04500

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05826 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05952 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02960 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.07264 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11437 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.04500 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27720

arXiv ID: 2604.05826

arXiv ID: 2604.05952

arXiv ID: 2603.02960

arXiv ID: 2601.07264

arXiv ID: 2512.11437

arXiv ID: 2509.04500