arXiv ID:
2601.02780
MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report
1️⃣ 一句话总结
这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型,它通过创新的专家混合结构和训练方法,在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力,并且推理速度更快。
MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report
这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型,它通过创新的专家混合结构和训练方法,在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力,并且推理速度更快。
用于序列推荐的并行潜在推理 / Parallel Latent Reasoning for Sequential Recommendation
这篇论文提出了一种名为‘并行潜在推理’的新方法,通过同时探索多条不同的推理路径来更全面地理解用户稀疏的行为序列,从而在保持实时推荐效率的同时,显著提升了序列推荐系统的准确性和泛化能力。
VIBE:基于视觉指令的编辑器 / VIBE: Visual Instruction Based Editor
这篇论文提出了一个名为VIBE的高效图像编辑系统,它通过结合一个较小的视觉语言模型和一个轻量级扩散模型,在保持高质量编辑效果的同时,大幅降低了计算成本和内存需求,使其能在普通硬件上快速运行。
利用特权信息增强目标检测:一种模型无关的师生学习方法 / Enhancing Object Detection with Privileged Information: A Model-Agnostic Teacher-Student Approach
这篇论文提出了一种通用的师生学习框架,让目标检测模型在训练时能利用额外的精细信息(如掩码、深度图等)来提升性能,而在实际使用时无需这些信息,从而在不增加计算负担的情况下显著提高了检测准确率。
一针见血的安全修复:用单个实例修补微调后的大语言模型 / Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
这篇论文发现,只需使用一个安全示例,就能高效且低成本地修复因微调而受损的大语言模型安全性,且不会影响模型的其他有用功能,其有效性源于安全梯度具有的低秩结构。
熵自适应微调:解决置信冲突以缓解遗忘 / Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
这篇论文提出了一种名为‘熵自适应微调’的新方法,通过识别并抑制模型自身高度自信但与外部监督相冲突的‘置信冲突’数据,在保持模型下游任务性能的同时,有效缓解了传统监督微调导致的灾难性遗忘问题。
FFP-300K:扩展首帧传播以实现通用视频编辑 / FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
这篇论文通过构建一个大规模高质量视频数据集(FFP-300K)并设计一种新的自适应框架,解决了现有视频编辑方法依赖繁琐引导的难题,实现了无需额外指引、能同时保持首帧外观和原视频运动的稳定视频编辑。
DiffProxy:通过扩散生成的密集代理实现多视角人体网格恢复 / DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
这篇论文提出了一个名为DiffProxy的新框架,它利用扩散模型的生成能力来创建多视角一致的人体代理,从而有效结合合成数据的精确标注优势和真实数据的泛化需求,在仅使用合成数据训练的情况下,显著提升了在真实复杂场景(如遮挡、局部视角)下人体三维重建的准确性和鲁棒性。
Prithvi-互补自适应融合编码器(CAFE):解锁洪水淹没制图的全潜力 / Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
本研究提出了一种名为Prithvi-CAFE的新模型,它通过巧妙融合地理基础大模型的全局理解能力和一个专门捕捉局部细节的卷积神经网络分支,显著提升了洪水淹没范围制图的精度,在两个公开数据集上均取得了当前最佳性能。
WebGym:通过真实任务扩展视觉网络智能体的训练环境 / WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks
这篇论文提出了一个名为WebGym的大规模开源训练环境,它包含近30万个基于真实网站的任务,通过高效的异步采样系统和强化学习方法,成功训练出一个视觉语言模型,使其在从未见过的网站任务上表现大幅超越GPT-4o等顶级闭源模型。
请先 登录 后再提交论文