arXiv ID:
2603.08495
通过去校准实现高效的置信预测 / Efficient Credal Prediction through Decalibration
1️⃣ 一句话总结
这篇论文提出了一种名为“去校准”的高效方法,能够为机器学习模型(如大型基础模型)快速生成表示认知不确定性的概率区间,从而在保持性能的同时大幅降低计算成本。
通过去校准实现高效的置信预测 / Efficient Credal Prediction through Decalibration
这篇论文提出了一种名为“去校准”的高效方法,能够为机器学习模型(如大型基础模型)快速生成表示认知不确定性的概率区间,从而在保持性能的同时大幅降低计算成本。
解构多模态数学推理:迈向统一的感知-对齐-推理范式 / Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm
这篇论文系统性地分析了当前多模态数学推理模型在处理图文结合的数学问题时面临的挑战,如误解图表和推理不一致,并提出通过整合结构化感知、显式对齐和可验证推理的统一框架来解决这些问题,为未来研究指明了方向。
AdaCultureSafe:基于大语言模型文化知识的自适应文化安全 / AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models
这篇论文提出了一个将文化知识与文化安全相结合的新框架,通过构建高质量数据集和知识引导的响应生成方法,有效提升了大语言模型在尊重不同文化方面的安全性。
在空间与时空操作下人机在以自我为中心动作识别中的差异 / Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations
这项研究发现,在识别视频中的动作时,人类主要依赖关键的手-物交互等语义线索,而AI模型则更依赖上下文和中低层视觉特征,导致在图像被裁剪或时间顺序被打乱时,两者的识别表现和策略存在显著差异。
基于结构化扰动的LLM资助提案评审能力评估 / Evaluating LLM-Based Grant Proposal Review via Structured Perturbations
这项研究通过系统性地修改提案内容来测试大语言模型在评审科研资助申请时的能力,发现分章节评审效果最好,但模型普遍擅长检查格式合规性,而难以评估整体质量与清晰度,目前只能作为人工评审的辅助工具。
StreamReady:学习在长流式视频中何时回答以及回答什么 / StreamReady: Learning What to Answer and When in Long Streaming Videos
这篇论文提出了一个名为StreamReady的新框架,它通过一个轻量级的‘准备就绪’机制,让AI模型在观看长视频流时,不仅能判断内容,还能精准把握回答问题的恰当时机,避免过早猜测或过晚回应,从而在多个视频理解任务上取得了更优表现。
语言模型知道Theo有妻子吗?探究附带条件问题 / Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem
这篇论文通过将语用学中一个关于条件句预设的未解难题转化为自然语言推理任务,并构建诊断数据集来测试主流语言模型,发现这些模型虽然总体上能做出与人类相似的判断,但其依据是浅层的模式匹配而非深层的语义或语用推理。
Hospitality-VQA:面向决策的视觉语言模型信息性评估 / Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models
这篇论文提出了一个针对酒店和设施图像的视觉问答新框架,通过定义“信息性”来衡量图像和问题对用户决策的帮助程度,并构建了一个专门的评测数据集,发现当前先进的视觉语言模型需要经过特定领域微调才能有效利用关键视觉信息来支持决策。
通过自我批判推理框架扩展视觉语言模型的测试时鲁棒性 / Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework
这篇论文提出了一种名为自我批判推理的新框架,通过多轮假设性提问来减少大型视觉语言模型对文字描述的过度依赖和敏感性问题,并引入了一个动态测试标准来更准确地评估不同模型的实际可靠性。
QuadAI在SemEval-2026任务3中的工作:结合混合RoBERTa与大语言模型的集成学习方法用于维度方面情感分析 / QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis
这篇论文提出了一种用于维度方面情感分析的新方法,通过将混合RoBERTa模型与大语言模型的预测结果进行集成学习,有效提升了预测的准确性和稳定性。
请先 登录 后再提交论文