arXiv ID:
2601.19897
自蒸馏实现持续学习 / Self-Distillation Enables Continual Learning
1️⃣ 一句话总结
这篇论文提出了一种名为‘自蒸馏微调’的新方法,让大模型能够像学生一样,通过模仿自己过去的优秀表现来学习新技能,从而在不断学习新知识的同时,有效防止忘记旧本领。
自蒸馏实现持续学习 / Self-Distillation Enables Continual Learning
这篇论文提出了一种名为‘自蒸馏微调’的新方法,让大模型能够像学生一样,通过模仿自己过去的优秀表现来学习新技能,从而在不断学习新知识的同时,有效防止忘记旧本领。
隐私崩溃:良性的微调可能破坏语言模型中的上下文隐私 / Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
这篇论文发现,即使是为了提升性能而进行的良性微调,也可能意外地破坏大型语言模型保护用户隐私的能力,使其在不该泄露信息时泄露信息,而这一隐患在常规的安全测试中很难被发现。
医学SAM3:一个用于通用提示驱动医学图像分割的基础模型 / Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation
这篇论文提出了一个名为Medical SAM3的医学图像分割基础模型,它通过在大规模、多模态的医学图像数据上对通用模型SAM3进行完全微调,显著提升了其在处理复杂解剖结构和三维医学图像时的分割准确性和鲁棒性,使其能够更好地响应文本提示并适应医学领域的特殊需求。
TranslateGemma技术报告 / TranslateGemma Technical Report
这篇论文介绍了一个名为TranslateGemma的开源机器翻译模型系列,它通过两阶段微调显著提升了基础模型Gemma 3的翻译能力,在多项评测中表现优异,且小模型能达到大模型的性能,同时保持了强大的多模态能力。
视频生成中的运动归因 / Motion Attribution for Video Generation
这篇论文提出了一个名为Motive的框架,它能找出训练数据中哪些视频片段对AI生成视频的‘运动效果’影响最大,并利用这些发现来优化数据选择,从而让生成的视频动作更流畅、更符合物理规律。
ET-Agent:通过行为校准激励有效的工具集成推理智能体 / ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
这篇论文提出了一个名为ET-Agent的训练框架,它通过自我进化的数据循环和两阶段行为校准训练,来纠正大语言模型智能体在使用外部工具时出现的无效行为(如工具调用冗余或不足),从而提升其任务执行的正确性和效率。
思维分子结构:绘制长链思维推理的拓扑图 / The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
这篇论文提出,大语言模型有效的长链思维推理过程类似于稳定的分子结构,由三种相互作用构成,并基于此发现开发了一种新方法来合成这种结构,从而显著提升了模型的推理性能和训练稳定性。
一针见血的安全修复:用单个实例修补微调后的大语言模型 / Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
这篇论文发现,只需使用一个安全示例,就能高效且低成本地修复因微调而受损的大语言模型安全性,且不会影响模型的其他有用功能,其有效性源于安全梯度具有的低秩结构。
熵自适应微调:解决置信冲突以缓解遗忘 / Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
这篇论文提出了一种名为‘熵自适应微调’的新方法,通过识别并抑制模型自身高度自信但与外部监督相冲突的‘置信冲突’数据,在保持模型下游任务性能的同时,有效缓解了传统监督微调导致的灾难性遗忘问题。
SpatialTree:空间能力在多模态大语言模型中的分支发展 / SpatialTree: How Spatial Abilities Branch Out in MLLMs
这篇论文提出了一个受认知科学启发的四层次空间能力框架(SpatialTree),用于系统评估和提升多模态大语言模型的空间能力,并发现低层能力相互独立而高层能力紧密关联,同时提出了一种能抑制不必要思考的自动思考策略来全面提升模型性能。
请先 登录 后再提交论文