Script:面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
1️⃣ 一句话总结
本文提出了一种名为Script的即插即用令牌剪枝方法,通过结合图结构剪枝和查询条件语义剪枝,在无需重新训练的情况下,显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。
请先 登录 后再提交论文
Script:面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
本文提出了一种名为Script的即插即用令牌剪枝方法,通过结合图结构剪枝和查询条件语义剪枝,在无需重新训练的情况下,显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。
多智能体系统中的潜在协作 / Latent Collaboration in Multi-Agent Systems
这篇论文提出了一个名为LatentMAS的无训练框架,让多个AI智能体直接在内部表示空间中进行协作,相比传统基于文本交互的方法,不仅显著提升了推理准确率和效率,还大幅降低了计算和通信开销。
通过令牌置换实现更稀疏的块稀疏注意力 / Sparser Block-Sparse Attention via Token Permutation
这篇论文提出了一种名为PBS-Attn的新方法,通过重新排列输入序列中令牌的顺序,使得大语言模型在处理长文本时能够更高效地跳过不必要的计算块,从而在保持高精度的同时将预处理速度提升最高2.75倍。
沟通至完成:通过智能多智能体通信建模协作工作流 / Communication to Completion: Modeling Collaborative Workflows with Intelligent Multi-Agent Communication
这篇论文提出了一个名为C2C的创新框架,通过量化智能体任务对齐度和整合智能通信决策,让多个AI智能体在协作复杂任务时能动态优化沟通策略,从而将任务完成时间减少约40%,同时保持可接受的沟通成本。
CogVLA:通过指令驱动路由与稀疏化实现认知对齐的视觉-语言-动作模型 / CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
这篇论文提出了一种名为CogVLA的高效智能模型,它通过模仿人类认知过程,使用指令来动态筛选视觉和语言信息,从而在机器人任务中实现了更高的准确性和更快的运行速度,同时大幅降低了计算成本。
InternVL3.5:在通用性、推理能力和效率上推进开源多模态模型 / InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
这篇论文提出了InternVL 3.5开源多模态模型,通过创新的两阶段强化学习框架和动态视觉分辨率调节技术,显著提升了模型的推理能力、运行效率及通用性,并在多项任务中接近顶尖商业模型的性能。