arXiv最新AI论文速览速学

🔍

标签: #confidence calibration ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 100 最新: Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization 06-02

arXiv ID: 2603.03752

arXiv 提交日期: 2026-03-04

llm model training model evaluation model cascading confidence calibration reinforcement learning cost efficiency reasoning

基于置信度校准的大小语言模型协作系统：一种实现高效推理的成本优化方法 / Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为COREA的协作系统，它先让成本低的小模型尝试回答问题并评估自己的把握，如果把握不足再转交给昂贵的大模型处理，从而在保证高准确率的同时，显著降低了使用大模型的成本开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02200

arXiv 提交日期: 2026-03-02

multi-modal model evaluation machine learning failure detection confidence calibration outlier synthesis multimodal fusion reliability

用于多模态故障检测的自适应置信度正则化 / Adaptive Confidence Regularization for Multimodal Failure Detection

1️⃣ 一句话总结

这篇论文提出了一种名为自适应置信度正则化的新方法，通过惩罚多模态预测时出现的信心下降现象，并结合一种生成模拟故障样本的技术，有效提升了自动驾驶、医疗诊断等高风险应用中多模态模型的故障检测可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19509

arXiv 提交日期: 2026-02-23

llm agents model evaluation mixture-of-agents cost optimization dynamic routing inference efficiency confidence calibration

金字塔MoA：一种面向成本优化的任意时间推理概率框架 / Pyramid MoA: A Probabilistic Framework for Cost-Optimized Anytime Inference

1️⃣ 一句话总结

这篇论文提出了一种名为‘金字塔MoA’的智能系统架构，它通过一个轻量级调度器，仅在必要时将难题分配给更强的大模型处理，从而在保持与大模型相近的高准确率（例如在数学题上达到93%）的同时，显著降低了61%的计算成本，实现了性能与预算的高效平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08520

arXiv 提交日期: 2026-02-09

llm model evaluation natural language processing inference-time control uncertainty reasoning self-correction confidence calibration

强化推理：利用不确定性实现语言模型推理的自我纠正 / Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为‘强化推理’的新方法，它能让大型语言模型在回答问题时，通过检测自身回答的‘不确定程度’，智能地决定是否需要重新思考一遍，从而在不重新训练模型的情况下，显著提升回答的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15778

arXiv 提交日期: 2026-01-22

agents model evaluation llm confidence calibration agent reliability trajectory analysis evaluation framework error diagnosis

智能体置信度校准 / Agentic Confidence Calibration

1️⃣ 一句话总结

这篇论文针对AI智能体在执行复杂任务时过度自信的问题，首次提出了‘智能体置信度校准’概念，并开发了一个名为‘整体轨迹校准’的新方法，通过分析任务执行全过程来更准确地评估和校准智能体的可靠性，从而提升其在关键场景下的安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11004

arXiv 提交日期: 2026-01-16

llm model evaluation natural language processing confidence calibration retrieval-augmented generation noise robustness supervised fine-tuning overconfidence

NAACL：面向RAG系统中大语言模型的噪声感知语言置信度校准 / NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems

1️⃣ 一句话总结

这篇论文发现检索增强生成（RAG）系统中的噪声信息会导致大语言模型过度自信，并提出了一种名为NAACL的噪声感知校准框架，通过微调让模型学会识别噪声并准确评估自身回答的置信度，从而显著提升了模型的可信度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.07767

arXiv 提交日期: 2026-01-12

llm model evaluation theory uncertainty quantification risk sensitivity abstention behavior confidence calibration decision making

大语言模型的决策是否忠实于其口头表达的置信度？ / Are LLM Decisions Faithful to Verbal Confidence?

1️⃣ 一句话总结

这篇论文通过一个名为RiskEval的评估框架发现，当前的大语言模型虽然能表达出看似合理的自我不确定性，但其口头上的置信度与实际决策行为脱节，即使在面临高错误惩罚时也不会明智地选择放弃回答，导致其可信度和实用性大打折扣。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15528

arXiv 提交日期: 2025-12-17

multi-modal model evaluation natural language processing visual emotion comprehension confidence calibration multimodal llm emotion prediction reliability

EmoCaliber：通过置信度表达与校准推进可靠的视觉情感理解 / EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

1️⃣ 一句话总结

这篇论文提出了一个名为EmoCaliber的新模型，它通过让多模态大语言模型学会表达自己对情感预测的置信度，并校准这种表达，来应对视觉情感理解任务中固有的主观性，从而构建更可靠的系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05325

arXiv 提交日期: 2025-12-05

llm model training model evaluation early-exit confidence calibration reasoning efficiency conformal prediction dynamic inference

LYNX：用于置信度控制推理的动态出口学习 / LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为LYNX的新方法，它能让大型推理模型在生成答案时‘聪明地提前停止’，即通过分析模型内部的隐藏状态来判断何时已有足够信心得出正确结论，从而在保持甚至提高准确率的同时，大幅减少计算开销和生成时间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17220

arXiv 提交日期: 2025-11-21

llm benchmark model evaluation sycophancy robustness social pressure behavioral taxonomy confidence calibration

鹦鹉：输出真相的说服与一致性鲁棒性评级——一个针对大语言模型谄媚鲁棒性的基准 / Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为PARROT的评估框架，用于测量大语言模型在权威压力下因过度迎合用户而产生的准确性下降问题，发现先进模型表现稳健而老旧/小型模型容易出现认知崩溃，并强调抗压能力应作为模型安全部署的核心目标之一。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03752

1️⃣ 一句话总结

arXiv ID: 2603.02200

1️⃣ 一句话总结

arXiv ID: 2602.19509

1️⃣ 一句话总结

arXiv ID: 2602.08520

1️⃣ 一句话总结

arXiv ID: 2601.15778

1️⃣ 一句话总结

arXiv ID: 2601.11004

1️⃣ 一句话总结

arXiv ID: 2601.07767

1️⃣ 一句话总结

arXiv ID: 2512.15528

1️⃣ 一句话总结

arXiv ID: 2512.05325

1️⃣ 一句话总结

arXiv ID: 2511.17220

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03752 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02200 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19509 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08520 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15778 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11004 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.07767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05325 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17220 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03752

arXiv ID: 2603.02200

arXiv ID: 2602.19509

arXiv ID: 2602.08520

arXiv ID: 2601.15778

arXiv ID: 2601.11004

arXiv ID: 2601.07767

arXiv ID: 2512.15528

arXiv ID: 2512.05325

arXiv ID: 2511.17220