arXiv ID:
2512.21218
潜在隐式视觉推理 / Latent Implicit Visual Reasoning
1️⃣ 一句话总结
这项研究提出了一种无需人工标注监督的方法,让大型多模态模型能够自动发现并利用视觉推理标记,从而在多种以视觉为核心的任务上实现更优的泛化性能和推理能力。
潜在隐式视觉推理 / Latent Implicit Visual Reasoning
这项研究提出了一种无需人工标注监督的方法,让大型多模态模型能够自动发现并利用视觉推理标记,从而在多种以视觉为核心的任务上实现更优的泛化性能和推理能力。
C2LLM技术报告:通过自适应交叉注意力池化实现代码检索的新前沿 / C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling
这篇论文提出了一个名为C2LLM的新型代码嵌入模型家族,它通过创新的注意力池化方法,有效聚合代码序列的全部信息,从而在代码检索任务上取得了同类模型中的最佳性能。
NVIDIA Nemotron 3:高效且开放的智能模型 / NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA发布了Nemotron 3系列模型,包含Nano、Super和Ultra三个版本,它们采用创新的混合架构,在保持高效推理和超长上下文处理能力的同时,提供了强大的智能体协作、推理和对话功能,并且该系列模型将开源其权重和训练方案。
掩码教师与强化学生:用于蒸馏视觉语言模型 / Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
这篇论文提出了一种名为Masters的新方法,通过逐步掩码大模型(教师)的非关键部分并结合强化学习奖励,来更稳定、高效地将大视觉语言模型的知识压缩到小模型(学生)中,解决了因模型尺寸差距大而导致的知识蒸馏效果不佳的问题。
DiRL:一种用于扩散语言模型的高效后训练框架 / DiRL: An Efficient Post-Training Framework for Diffusion Language Models
本文提出了一种名为DiRL的高效后训练框架,通过整合优化的训练与推理技术,显著提升了扩散语言模型在复杂数学推理任务上的性能,使其超越了同类模型。
自回归模型中涌现的时间抽象能力实现分层强化学习 / Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
这篇论文提出了一种名为‘内部强化学习’的新方法,通过让模型在其内部表示层面直接学习并执行一连串有意义的‘动作组合’(而非单个动作),从而解决了传统方法在奖励稀疏时学习效率低下的问题,使得大型预训练模型能更高效地完成复杂的层次化任务。
TokSuite:衡量分词器选择对语言模型行为的影响 / TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
这篇论文通过构建一个包含不同分词器的统一模型套件和新基准测试,揭示了分词器选择如何显著影响语言模型的性能和表现,为理解和选择合适的分词器提供了实证依据。
Step-DeepResearch:一种高成本效益的端到端深度研究智能体模型 / Step-DeepResearch Technical Report
本文提出了Step-DeepResearch,一个通过基于原子能力的数据合成策略和渐进式训练范式构建的、成本效益高的端到端深度研究智能体模型,其在中等参数量(32B)下实现了与顶级闭源模型相当的专家级研究能力,并构建了面向中文现实场景的深度研究基准ADR-Bench。
Nemotron 3 Nano:用于智能体推理的开放、高效的混合专家型Mamba-Transformer模型 / Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
这篇论文介绍了一个名为Nemotron 3 Nano的新型高效语言模型,它通过结合Mamba和Transformer架构以及混合专家技术,在保持高精度的同时大幅提升了推理速度,并增强了智能体交互和长文本理解能力。
SemanticGen:在语义空间中进行视频生成 / SemanticGen: Video Generation in Semantic Space
这篇论文提出了一种名为SemanticGen的新方法,它通过先在紧凑的语义空间中进行全局规划,再补充细节来生成视频,从而比现有方法收敛更快、计算效率更高,尤其适合生成长视频。
请先 登录 后再提交论文