arXiv ID:
2601.17237
C-RADIOv4 技术报告 / C-RADIOv4 (Tech Report)
1️⃣ 一句话总结
这篇技术报告介绍了C-RADIOv4模型,它通过整合多个先进教师模型的优势,在保持计算量不变的前提下,显著提升了多种视觉任务(如图像理解、分割)的性能,并新增了支持任意分辨率、高效高分辨率处理等实用功能。
C-RADIOv4 技术报告 / C-RADIOv4 (Tech Report)
这篇技术报告介绍了C-RADIOv4模型,它通过整合多个先进教师模型的优势,在保持计算量不变的前提下,显著提升了多种视觉任务(如图像理解、分割)的性能,并新增了支持任意分辨率、高效高分辨率处理等实用功能。
隐式神经表征促进统一的通用视觉编码 / Implicit Neural Representation Facilitates Unified Universal Vision Encoding
这篇论文提出了一种新型的视觉编码模型,它通过隐式神经表征技术,首次将图像识别和图像生成两大任务统一起来,学习到一个既可用于分类、检测等识别任务,又能用于高质量图像生成的紧凑嵌入空间。
DARC:用于大语言模型进化的解耦非对称推理课程 / DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution
这篇论文提出了一个名为DARC的两阶段自学习框架,通过先训练提问模型生成难度可控的问题,再让一个拥有文档访问权限的教师模型指导无文档访问权限的学生解答模型,有效解决了大语言模型在自我对弈训练中的不稳定性问题,从而在多个推理任务上显著提升了模型性能,且无需人工标注数据。
LaViT:对齐潜在视觉思维以实现多模态推理 / LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
这篇论文提出了一个名为LaViT的新框架,通过让学生模型在生成文本前先学习并复现教师模型的视觉关注轨迹和语义理解,有效解决了多模态推理中模型仅依赖语言先验而忽视真实视觉感知的问题,从而显著提升了模型的视觉基础能力,让小模型也能在复杂推理任务上取得优异表现。
面向卓越长链推理的分布对齐序列蒸馏 / Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning
这篇论文提出了一个名为DASD-4B-Thinking的新型轻量级开源推理模型,它通过改进传统的序列蒸馏方法,解决了教师模型输出分布与学生模型学习能力不匹配等核心问题,从而仅用少量训练数据就在数学、科学推理和代码生成等多项任务上达到了领先的开源模型性能。
用于快速视频生成的过渡匹配蒸馏 / Transition Matching Distillation for Fast Video Generation
这项研究提出了一种名为‘过渡匹配蒸馏’的新方法,它通过将大型视频扩散模型的知识压缩到轻量级条件流模型中,在保持视频生成质量的同时,大幅提升了生成速度,使其更适用于实时交互应用。
思维分子结构:绘制长链思维推理的拓扑图 / The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
这篇论文提出,大语言模型有效的长链思维推理过程类似于稳定的分子结构,由三种相互作用构成,并基于此发现开发了一种新方法来合成这种结构,从而显著提升了模型的推理性能和训练稳定性。
MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report
这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型,它通过创新的专家混合结构和训练方法,在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力,并且推理速度更快。
利用特权信息增强目标检测:一种模型无关的师生学习方法 / Enhancing Object Detection with Privileged Information: A Model-Agnostic Teacher-Student Approach
这篇论文提出了一种通用的师生学习框架,让目标检测模型在训练时能利用额外的精细信息(如掩码、深度图等)来提升性能,而在实际使用时无需这些信息,从而在不增加计算负担的情况下显著提高了检测准确率。
掩码教师与强化学生:用于蒸馏视觉语言模型 / Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
这篇论文提出了一种名为Masters的新方法,通过逐步掩码大模型(教师)的非关键部分并结合强化学习奖励,来更稳定、高效地将大视觉语言模型的知识压缩到小模型(学生)中,解决了因模型尺寸差距大而导致的知识蒸馏效果不佳的问题。
请先 登录 后再提交论文