WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
1️⃣ 一句话总结
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
请先 登录 后再提交论文
WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
基于上下文同步LoRA的人像视频编辑 / In-Context Sync-LoRA for Portrait Video Editing
这篇论文提出了一种名为Sync-LoRA的新方法,它通过使用少量经过严格筛选的同步人像视频进行训练,能够在对人像视频进行外观、表情或背景等多样化编辑的同时,精确保持原始视频中人物的动作轨迹和身份一致性。
PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
FlashVGGT:基于压缩描述符注意力的高效可扩展视觉几何变换器 / FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
这篇论文提出了一种名为FlashVGGT的新模型,它通过将图像信息压缩成少量描述符再进行注意力计算,在保持高精度三维重建能力的同时,大幅降低了计算开销,并能高效处理数千张图像的长序列。
工具交响乐:通过高效的模型与工具编排提升智能 / ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
这篇论文提出了一种名为ToolOrchestra的方法,通过训练一个小型的‘指挥家’模型来协调调用各种智能工具,从而在解决复杂任务时,以更低的成本实现了比大型语言模型(如GPT-5)更高的性能和效率,并且能更好地满足用户偏好。
理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models
这篇论文通过分析发现,统一多模态模型中的理解部分可以大幅压缩而不影响性能,但生成部分对压缩非常敏感,为此作者提出了一种基于稀疏激活的专家混合适配方法,使模型在仅激活约一半参数的情况下,就能达到与完整模型相当的性能。
GoRL:一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
这篇论文提出了一个名为GoRL的新框架,它通过将策略的优化过程与动作生成过程分离,巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾,从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。
用编程视觉思考:迈向图像思维的统一视图 / Thinking with Programming Vision: Towards a Unified View for Thinking with Images
这篇论文发现当前多模态大模型处理图像时非常脆弱,容易受方向变化等简单干扰影响,为此提出了一个名为CodeVision的新框架,让模型通过生成代码来灵活调用各种图像处理工具,并通过两阶段训练方法显著提升了模型的鲁棒性、工具组合能力和错误恢复能力。
UniQL:面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
这篇论文提出了一个名为UniQL的统一框架,它通过结合量化与低秩压缩技术,在云端一次性完成模型优化,使大语言模型能在手机等边缘设备上高效运行,在显著减小模型体积并提升运行速度的同时,基本保持原有的准确性。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。