AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
1️⃣ 一句话总结
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
请先 登录 后再提交论文
AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
FlashVGGT:基于压缩描述符注意力的高效可扩展视觉几何变换器 / FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
这篇论文提出了一种名为FlashVGGT的新模型,它通过将图像信息压缩成少量描述符再进行注意力计算,在保持高精度三维重建能力的同时,大幅降低了计算开销,并能高效处理数千张图像的长序列。
工具交响乐:通过高效的模型与工具编排提升智能 / ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
这篇论文提出了一种名为ToolOrchestra的方法,通过训练一个小型的‘指挥家’模型来协调调用各种智能工具,从而在解决复杂任务时,以更低的成本实现了比大型语言模型(如GPT-5)更高的性能和效率,并且能更好地满足用户偏好。
LFM2技术报告 / LFM2 Technical Report
这篇论文提出了一个名为LFM2的系列模型,它专门为在手机等边缘设备上高效运行而设计,通过创新的架构和训练方法,在保持强大任务处理能力的同时,实现了比同类模型更快的推理速度和更低的内存占用。
Glance:用1个样本加速扩散模型 / Glance: Accelerating Diffusion Models with 1 Sample
这篇论文提出了一种名为Glance的智能加速方法,它通过为扩散模型的不同生成阶段配备两个轻量级的LoRA适配器(一个用于慢速的语义阶段,一个用于快速的重构阶段),仅需1个样本、1小时即可完成训练,就能实现高达5倍的推理加速,同时保持良好的图像质量和泛化能力。
DiP:在像素空间中驯服扩散模型 / DiP: Taming Diffusion Models in Pixel Space
这篇论文提出了一种名为DiP的新型高效像素空间扩散模型框架,它通过将图像生成过程分解为全局结构构建和局部细节修复两个协同阶段,在无需依赖压缩编码器的情况下,实现了与潜在扩散模型相当的生成质量和计算效率,显著提升了高分辨率图像合成的速度。
DynaAct:动态动作空间下的大语言模型推理 / DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
这篇论文提出了一种名为DynaAct的新方法,能够自动构建紧凑且高效的动作空间,从而提升大语言模型在复杂推理任务中的决策能力,同时保持推理速度。
LUT-LLM:基于FPGA内存计算的高效大语言模型推理 / LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs
这项研究提出了一种名为LUT-LLM的创新方法,通过将大语言模型的计算从传统算术运算转变为基于内存的查找表操作,在FPGA上实现了比高端GPU更低延迟和更高能效的模型推理。
ARC-编码器:为大型语言模型学习压缩文本表示 / ARC-Encoder: learning compressed text representations for large language models
这篇论文提出了一种名为ARC-Encoder的通用文本压缩器,它能将长文本压缩成更少的连续表示,从而在不修改现有大型语言模型结构的情况下,显著提升推理效率并保持高性能,且一个编码器可适配多种不同模型。
Adamas:用于高效长上下文推理的哈达玛稀疏注意力机制 / Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
这篇论文提出了一种名为Adamas的新型稀疏注意力方法,它通过哈达玛变换和高效距离估计技术,在保持与完整注意力机制相近准确度的同时,大幅提升了长文本处理的速度和效率。