📄 论文总结
Motif-2-12.7B 技术报告 / Motif 2 12.7B technical report
1️⃣ 一句话总结
这篇论文介绍了一个名为Motif-2-12.7B的新型高效开源大语言模型,它通过创新的分组差分注意力架构和系统级优化,在有限计算资源下实现了与更大模型相媲美的强大语言理解和指令执行能力。
请先 登录 后再提交论文
Motif-2-12.7B 技术报告 / Motif 2 12.7B technical report
这篇论文介绍了一个名为Motif-2-12.7B的新型高效开源大语言模型,它通过创新的分组差分注意力架构和系统级优化,在有限计算资源下实现了与更大模型相媲美的强大语言理解和指令执行能力。
多头注意力机制的强彩票假说 / The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
这篇论文证明了在随机初始化的多头注意力网络和Transformer中,无需训练即可找到性能优秀的子网络,从而近似实现任意目标网络的功能。
HoloCine:电影式多镜头长视频叙事的整体生成 / HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
这篇论文提出了HoloCine模型,它能够整体生成连贯的多镜头长视频叙事,解决了现有技术只能生成孤立片段的问题,并实现了角色记忆和电影技法的自动运用,推动了从片段合成到自动化电影制作的转变。
长上下文注意力基准:从内核效率到分布式上下文并行 / Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism
这篇论文提出了一个统一的评估基准,系统比较了提升长文本训练效率的两种主流方法——优化注意力计算内核和分布式并行策略,为实际应用提供了性能权衡与设计指导。
注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs
这项研究提出了一种名为弹性缓存的训练免费方法,通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余,在保持生成质量的同时显著提升了解码速度,在多个任务上实现了最高45倍的加速效果。
一个字符足以决定你的大语言模型评估成败 / A Single Character can Make or Break Your LLM Evals
这篇论文揭示了大语言模型评估结果会因分隔示例的单个字符(如逗号、换行符等)选择不同而产生巨大波动,甚至能操纵模型排名,并提出了通过提示指定分隔符来提高评估稳健性的方法。
稀疏查询注意力(SQA):一种通过减少查询头实现计算高效的新型注意力机制 / Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
这篇论文提出了一种名为稀疏查询注意力的新方法,通过减少查询头的数量直接降低计算复杂度,在长序列处理任务中能提升高达3倍的计算效率,同时基本保持模型性能不变。
基于梯度注意力引导的双掩码协同框架实现鲁棒的文本行人检索 / Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
本研究通过构建大规模高质量行人图像文本数据集WebPerson,并提出一种自适应掩码噪声文本并增强细粒度语义学习的协同框架,显著提升了基于文本的行人检索性能。
通过对比注意力聚焦:增强视觉语言模型的视觉推理能力 / Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
这项研究提出了一种无需额外训练的方法CARVE,通过对比视觉语言模型中通用查询和任务特定查询的注意力差异,有效分离图像中的语义信号和视觉噪声,从而在复杂视觉场景下显著提升模型的推理性能。