AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
1️⃣ 一句话总结
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
请先 登录 后再提交论文
AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
PosterCopilot:面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
这篇论文提出了一个名为PosterCopilot的智能设计框架,它通过创新的训练方法让大模型学会精确的布局规划和审美判断,并支持对设计元素进行分层、迭代的精细化编辑,从而能自动生成几何准确且美观的专业海报。
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
Light-X:具备相机与光照联合控制的生成式4D视频渲染框架 / Light-X: Generative 4D Video Rendering with Camera and Illumination Control
这篇论文提出了一个名为Light-X的智能视频生成系统,它能让用户像导演一样,在保持画面流畅连贯的前提下,同时自由控制拍摄镜头的移动角度和场景的灯光效果,从而创造出逼真且动态变化的视频内容。
SIMA 2:适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds
这篇论文介绍了一个名为SIMA 2的通用智能体,它能在各种3D虚拟世界中理解、推理并执行复杂任务,不仅能像人类一样与用户对话协作,还能通过自我学习掌握新技能,向创建能持续学习的通用人工智能迈出了重要一步。
先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
奖励强制:通过奖励分布匹配蒸馏实现高效流式视频生成 / Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
这篇论文提出了一种名为‘奖励强制’的新方法,通过引入能融合长期上下文与近期动态的EMA-Sink令牌,以及利用视觉语言模型奖励来优先学习动态内容的分布匹配蒸馏技术,有效解决了现有流式视频生成方法中初始帧被过度复制、运动动态不足的问题,从而在保持长时一致性的同时,显著提升了生成视频的运动质量和生成效率。
Nex-N1:通过统一生态系统构建大规模环境以训练智能体模型 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
这篇论文提出了一个名为Nex的统一生态系统,通过自动生成多样且复杂的交互环境来训练大语言模型成为自主智能体,其训练的Nex-N1模型在复杂任务上表现优异,媲美顶尖商业模型。
SignRoundV2:弥合大语言模型极低位宽后训练量化中的性能差距 / SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
这篇论文提出了一个名为SignRoundV2的新方法,它通过一种快速的敏感度指标和轻量级预调优技术,成功地将大语言模型压缩到极低的位宽(如2比特或4比特),同时保持了与原始高精度模型非常接近的性能,解决了此类压缩通常导致性能严重下降的难题。