arXiv ID:
2511.01846
迈向稳健的数学推理 / Towards Robust Mathematical Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准,旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力,并展示了其模型在此基准上的优异表现。
迈向稳健的数学推理 / Towards Robust Mathematical Reasoning
这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准,旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力,并展示了其模型在此基准上的优异表现。
基于秩-2子空间解缠的多步骤知识交互分析 / Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement
这篇论文提出了一种新的秩-2子空间解缠方法,首次实现了对大语言模型生成多步解释时内部参数知识与外部上下文知识交互的系统分析,发现幻觉解释偏向参数知识,而忠实解释则平衡两种知识。
忘记比特,一切围绕TOKEN:面向大语言模型的语义信息理论 / Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs
这篇论文提出了一个以语义单元‘TOKEN’为核心的大语言模型信息理论框架,从信息论角度解释了大语言模型在预训练、微调和推理阶段的工作原理,并为不同模型架构提供了统一的理论分析工具。
AthenaBench:用于评估网络威胁情报中大型语言模型的动态基准 / AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
这篇论文提出了一个名为AthenaBench的增强基准,用于评估大型语言模型在网络威胁情报任务中的表现,发现当前模型在推理密集型任务上仍有明显不足,强调需要开发专门针对该领域的模型。
更短但不更差:通过简单样本作为数学RLVR中的长度正则化器进行节俭推理 / Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
这项研究发现,在训练大型语言模型进行数学推理时,保留并适度增加中等难度问题的权重可以有效防止模型产生冗长输出,从而在不牺牲准确性的前提下,使模型学会用更短的推理步骤解决复杂问题。
OpenSIR:开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner
这篇论文提出了一个名为OpenSIR的自我学习框架,让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题,在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。
面向大语言模型系统的RDMA点对点通信 / RDMA Point-to-Point Communication for LLM Systems
这篇论文提出了名为TransferEngine的通用通信接口,解决了大语言模型系统中不同硬件间点对点通信不兼容的问题,实现了高性能、可移植的数据传输,并在多个实际应用中显著提升了效率。
ToolScope:一种用于视觉引导和长视野工具使用的智能体框架 / ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
这篇论文提出了一个名为ToolScope的智能框架,它通过结合全局规划和局部视觉感知,有效提升了多模态大模型在复杂视觉问答任务中使用外部工具的能力,并在多个基准测试中显著提高了性能。
AMO-Bench:大型语言模型在高中数学竞赛中仍表现不佳 / AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
这篇论文提出了一个高难度的数学推理基准测试AMO-Bench,发现当前最先进的大型语言模型在解决奥林匹克级别数学问题时准确率仍然很低,最高仅为52.4%,表明AI在复杂数学推理方面仍有很大提升空间。
价值漂移:追踪大语言模型后训练过程中的价值对齐 / Value Drifts: Tracing Value Alignment During LLM Post-Training
这篇论文研究发现,大语言模型的价值取向主要是在监督微调阶段形成的,后续的偏好优化阶段很难改变已建立的价值,且不同优化算法对价值对齐的影响不同,为改进模型与人类价值观的对齐提供了关键指导。
请先 登录 后再提交论文