LFM2技术报告 / LFM2 Technical Report
1️⃣ 一句话总结
这篇论文提出了一个名为LFM2的系列模型,它专门为在手机等边缘设备上高效运行而设计,通过创新的架构和训练方法,在保持强大任务处理能力的同时,实现了比同类模型更快的推理速度和更低的内存占用。
请先 登录 后再提交论文
LFM2技术报告 / LFM2 Technical Report
这篇论文提出了一个名为LFM2的系列模型,它专门为在手机等边缘设备上高效运行而设计,通过创新的架构和训练方法,在保持强大任务处理能力的同时,实现了比同类模型更快的推理速度和更低的内存占用。
SpeContext:利用大语言模型中的推测性上下文稀疏性实现高效长上下文推理 / SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs
这篇论文提出了一种名为SpeContext的新方法,它通过使用一个轻量化的“蒸馏”模型来智能筛选长文本中的关键信息,并结合软硬件协同优化,在几乎不影响大模型回答准确性的前提下,大幅提升了长文本处理的速度和效率。
Monet:超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language
这篇论文提出了一个名为Monet的训练框架,通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理,并针对训练挑战设计了专门的优化方法,显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。
Nemotron Elastic:迈向高效多合一推理大语言模型 / Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
这篇论文提出了一种名为Nemotron Elastic的创新框架,能在单一模型中嵌入多个不同规模的子模型,无需额外训练即可直接部署,从而大幅降低了构建多规格推理大语言模型的训练成本。
Step-Audio-R1技术报告 / Step-Audio-R1 Technical Report
这篇论文提出了首个音频推理模型Step-Audio-R1,通过创新的模态锚定推理蒸馏方法,成功让AI在理解声音时能够进行有效推理,在多项音频理解任务中超越了现有先进模型。
小模型,大逻辑:多样性驱动优化激发VibeThinker-1.5B具备大模型推理能力 / Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
这篇论文通过一种名为‘频谱到信号原则’的新方法,成功让仅有15亿参数的小模型VibeThinker-1.5B在数学推理任务上超越了参数规模大数百倍的大型模型,证明小模型通过高效训练也能具备强大的逻辑推理能力,大幅降低了AI研发成本。
MotionStream:基于交互式运动控制的实时视频生成 / MotionStream: Real-Time Video Generation with Interactive Motion Controls
这篇论文提出了一个名为MotionStream的实时视频生成系统,它通过将预训练模型转化为实时推理架构,解决了现有方法延迟高、无法交互的问题,能够在单个GPU上以最高29帧每秒的速度生成无限长的视频,让用户能够通过绘制轨迹或控制摄像机等方式实时看到视频生成效果。
SemCoT:通过语义对齐的隐式标记加速思维链推理 / SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens
这篇论文提出了一种名为SemCoT的新方法,通过将思维链推理过程压缩成语义对齐的隐式标记,在保持推理准确性的同时显著提升了大型语言模型的推理效率。
AdaSPEC:面向高效推测解码器的选择性知识蒸馏 / AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
本文提出了一种名为AdaSPEC的新方法,通过选择性过滤难以学习的词汇来优化知识蒸馏过程,使得小模型在推测解码中能更有效地模仿大模型,从而显著提高推理速度而不损失生成质量。
BitNet蒸馏 / BitNet Distillation
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。