通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
1️⃣ 一句话总结
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
请先 登录 后再提交论文
通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
SCALE:通过选择性资源分配克服数学测试时扩展中的性能瓶颈 / SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
这篇论文提出了一种名为SCALE的新方法,它像一位聪明的项目经理,在大型语言模型解决数学问题时,能自动识别并集中计算资源去攻克难题,而不是平均分配,从而在显著提升解题准确率的同时,大幅降低了计算成本。
Fast3Dcache:无需训练的3D几何合成加速方法 / Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
本文提出了一种名为Fast3Dcache的新方法,它能在不重新训练模型的前提下,通过智能地复用计算过程中稳定的中间结果,显著加快3D模型的生成速度,同时有效避免了因直接套用2D加速技术而导致的3D几何结构变形问题。
HiconAgent:面向图形界面智能体的历史上下文感知策略优化 / HiconAgent: History Context-aware Policy Optimization for GUI Agents
这篇论文提出了一种名为HiconAgent的智能体,它通过一种创新的历史上下文感知优化方法,让图形界面操作机器人既能有效利用过去的操作经验来提升任务成功率,又能大幅减少计算负担,实现了性能与效率的双重提升。
LiteAttention:一种用于扩散变换器的时间稀疏注意力机制 / LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
本文提出了一种名为LiteAttention的高效注意力机制,通过利用扩散过程中注意力模式的时序连贯性来跳过冗余计算,在保持视频生成质量的同时显著降低了计算延迟。
通过改造递归机制让预训练语言模型进行更深层思考 / Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
这项研究提出了一种将现有非递归预训练语言模型转化为深度递归模型的方法,通过渐进式增加模型有效深度的训练策略,在降低计算成本的同时提升了数学任务上的性能表现。
基于预算感知的测试时缩放:通过判别性验证实现 / Budget-aware Test-time Scaling via Discriminative Verification
这篇论文提出了一种结合判别性验证和自一致性的混合方法,在固定计算预算下显著提升大语言模型的推理性能,比现有生成式验证更高效且准确。
深度剪枝:消除轨迹间冗余的并行扩展方法 / DeepPrune: Parallel Scaling without Inter-trace Redundancy
这篇论文提出了一种名为DeepPrune的新方法,通过动态剪枝技术有效消除大语言模型并行推理过程中产生的冗余计算,能在保持准确率的同时将计算量减少80%以上。
稀疏查询注意力(SQA):一种通过减少查询头实现计算高效的新型注意力机制 / Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
这篇论文提出了一种名为稀疏查询注意力的新方法,通过减少查询头的数量直接降低计算复杂度,在长序列处理任务中能提升高达3倍的计算效率,同时基本保持模型性能不变。
EconProver:面向自动定理证明的更经济测试时扩展方法 / EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving
本文提出了一种名为EconProver的经济型自动定理证明方法,通过动态思维链切换和并行强化学习技术,在保持性能的同时将计算成本降低至原有方法的12%。