arXiv ID:
2605.26099
语言模型需要“睡眠” / Language Models Need Sleep
1️⃣ 一句话总结
本论文提出一种类似动物睡眠的机制,让大型语言模型在处理长序列任务时,能通过离线“睡眠”阶段将已积累的信息转化为持久化的快速权重,从而在不增加推理延迟的情况下显著提升模型在需要深度推理任务上的表现。
语言模型需要“睡眠” / Language Models Need Sleep
本论文提出一种类似动物睡眠的机制,让大型语言模型在处理长序列任务时,能通过离线“睡眠”阶段将已积累的信息转化为持久化的快速权重,从而在不增加推理延迟的情况下显著提升模型在需要深度推理任务上的表现。
Firebolt-VL:通过跨模态调制实现高效的视觉-语言理解 / Firebolt-VL: Efficient Vision-Language Understanding with Cross-Modality Modulation
这篇论文提出了一种名为Firebolt-VL的高效视觉-语言模型,它通过一种新颖的跨模态调制机制,在保持线性计算复杂度的同时,能更精准地关注与文本相关的图像细节,从而在资源有限设备上实现既快速又准确的图文理解。
Mamba遇上调度:利用高效序列建模学习求解柔性作业车间调度问题 / Mamba Meets Scheduling: Learning to Solve Flexible Job Shop Scheduling with Efficient Sequence Modeling
这篇论文提出了一种基于Mamba状态空间模型的新型AI架构,它能更高效、更准确地解决复杂的柔性作业车间调度问题,在速度和性能上都超越了现有最好的学习方法。
VideoSSM:基于混合状态空间记忆的自回归长视频生成 / VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory
这篇论文提出了VideoSSM模型,它通过结合自回归扩散和一种混合状态空间记忆机制,有效解决了生成长视频时画面不连贯、动作漂移和内容重复的问题,从而能够稳定地生成长达数分钟且内容多样的高质量视频。
请先 登录 后再提交论文