arXiv ID:
2511.02687
协作鸿沟 / The Collaboration Gap
1️⃣ 一句话总结
这篇论文通过一个迷宫求解实验发现,即使单个AI模型表现优秀,它们在相互协作时性能也会显著下降,揭示了AI系统间存在的‘协作鸿沟’,并提出了由强模型主导的‘接力推理’方法来改善协作效果。
协作鸿沟 / The Collaboration Gap
这篇论文通过一个迷宫求解实验发现,即使单个AI模型表现优秀,它们在相互协作时性能也会显著下降,揭示了AI系统间存在的‘协作鸿沟’,并提出了由强模型主导的‘接力推理’方法来改善协作效果。
视觉输入能否被压缩?面向大型多模态模型的视觉令牌压缩基准 / Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
这篇论文提出了一个名为UniPruneBench的统一基准测试平台,用于系统评估大型多模态模型中视觉令牌压缩方法的性能,发现随机剪枝是一个意外强大的基线方法,且压缩比例是影响模型性能的主要因素。
LiveSecBench:面向中文语境大语言模型的动态与文化相关AI安全基准 / LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
这篇论文提出了一个专门针对中文应用场景的动态AI安全评测基准,从法律、伦理、事实性等六个维度评估大模型,并通过定期更新来应对新兴安全威胁。
LTD-Bench:通过让大语言模型绘画来评估它们 / LTD-Bench: Evaluating Large Language Models by Letting Them Draw
这篇论文提出了一个名为LTD-Bench的创新评估基准,通过让大语言模型生成绘画来直观揭示它们在空间推理能力上的严重缺陷,弥补了传统数值评估方法的不足。
顺序优势:在同等计算量下,逆熵投票优于并行自一致性方法 / The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute
这项研究发现,在相同计算资源下,让语言模型通过顺序迭代改进答案的方法,比同时运行多个独立推理链的并行方法更有效,并通过一种新的逆熵加权投票技术进一步提升了准确率。
当模态冲突时:单模态推理不确定性如何控制多模态大语言模型的偏好动态 / When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
这篇论文揭示了多模态大模型在处理视觉和文本信息冲突时,其决策主要受两个因素控制:模型对每种信息可靠性的实时判断差异,以及模型自身对某种信息类型的固有偏好,从而解释了模型在矛盾信息面前如何做出选择。
Trove:一个灵活的密集检索工具包 / Trove: A Flexible Toolkit for Dense Retrieval
这篇论文介绍了一个名为Trove的开源工具包,它通过高效的数据管理和高度可定制化的设计,让用户能够轻松进行密集检索实验,同时显著降低内存消耗并提升处理速度。
迈向稳健的数学推理 / Towards Robust Mathematical Reasoning
这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准,旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力,并展示了其模型在此基准上的优异表现。
外科医生离手术世界模型还有多远?关于零样本手术视频生成与专家评估的初步研究 / How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
这项研究通过专家评估发现,先进的视频生成模型虽然能生成视觉上逼真的手术视频,但在理解手术器械操作、环境反馈和手术意图等深层因果逻辑方面存在显著不足,揭示了AI在专业医疗领域模拟真实世界能力的局限性。
基于秩-2子空间解缠的多步骤知识交互分析 / Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement
这篇论文提出了一种新的秩-2子空间解缠方法,首次实现了对大语言模型生成多步解释时内部参数知识与外部上下文知识交互的系统分析,发现幻觉解释偏向参数知识,而忠实解释则平衡两种知识。
请先 登录 后再提交论文