WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
1️⃣ 一句话总结
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
请先 登录 后再提交论文
WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
FlashVGGT:基于压缩描述符注意力的高效可扩展视觉几何变换器 / FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
这篇论文提出了一种名为FlashVGGT的新模型,它通过将图像信息压缩成少量描述符再进行注意力计算,在保持高精度三维重建能力的同时,大幅降低了计算开销,并能高效处理数千张图像的长序列。
BOOM:超越单一模态——KIT的多模态多语言讲座伴侣 / BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
这篇论文提出了一个名为BOOM的系统,它能够同时翻译讲座的音频和幻灯片,生成同步的文本、图像和语音输出,旨在为全球学生提供完整、可访问的多语言学习体验。
通过高效启发式辅助构造实现金牌级别的奥数几何解题 / Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions
这篇论文提出了一种名为HAGeo的高效几何定理证明方法,它不依赖神经网络,仅通过启发式策略添加辅助点线,就在国际数学奥林匹克级别的几何题上达到了金牌选手的解题水平,并超越了之前的神经网络方法。
视觉同步:通过跨视角物体运动实现多相机同步 / Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
这篇论文提出了一种名为VisualSync的优化框架,它利用不同视角下物体运动的几何约束,能够自动、高精度地同步来自多个普通相机的未标定、未同步的视频,无需昂贵硬件或人工干预。
RELIC:具备长时记忆的交互式视频世界模型 / RELIC: Interactive Video World Model with Long-Horizon Memory
这篇论文提出了一个名为RELIC的交互式视频生成模型,它通过一种新颖的压缩记忆机制,能够实时、长时地根据用户指令生成具有空间一致性的动态场景,解决了以往模型难以兼顾实时性、长时记忆和精确控制三大挑战的问题。
UniQL:面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
这篇论文提出了一个名为UniQL的统一框架,它通过结合量化与低秩压缩技术,在云端一次性完成模型优化,使大语言模型能在手机等边缘设备上高效运行,在显著减小模型体积并提升运行速度的同时,基本保持原有的准确性。
LFM2技术报告 / LFM2 Technical Report
这篇论文提出了一个名为LFM2的系列模型,它专门为在手机等边缘设备上高效运行而设计,通过创新的架构和训练方法,在保持强大任务处理能力的同时,实现了比同类模型更快的推理速度和更低的内存占用。
用于配备超限肢体人形机器人步态的层次化框架 / A Hierarchical Framework for Humanoid Locomotion with Supernumerary Limbs
这篇论文提出了一种分层控制框架,通过结合基于学习的步态生成和基于模型的动态平衡,有效解决了人形机器人在安装额外肢体后因扰动而导致的稳定性难题。
GUI探索实验室:通过多轮强化学习增强智能体在屏幕间的导航能力 / GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
这篇论文提出了一个名为GUI探索实验室的模拟环境引擎,用于研究和训练能在复杂图形界面中导航的智能体,并通过实验发现,结合监督微调、单轮强化学习和多轮强化学习的训练方法,能有效提升智能体在未知场景下的探索与导航能力。