arXiv ID:
2602.04118
用13个参数学习推理 / Learning to Reason in 13 Parameters
1️⃣ 一句话总结
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
用13个参数学习推理 / Learning to Reason in 13 Parameters
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
X2HDR:在感知均匀空间中进行高动态范围图像生成 / X2HDR: HDR Image Generation in a Perceptually Uniform Space
这篇论文提出了一种无需从头训练、高效适配现有扩散模型的方法,通过在感知均匀空间中进行微调,成功实现了从文本生成高动态范围图像以及从单张RAW图像重建高动态范围图像,显著提升了生成图像的质量和真实感。
HyperAlign:用于扩散模型高效测试时对齐的超网络 / HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models
这篇论文提出了一个名为HyperAlign的新方法,它通过训练一个超网络来动态调整扩散模型的生成过程,从而在生成图像时能高效地使其更符合人类审美和语义意图,解决了现有方法在效果、效率和多样性之间难以权衡的问题。
大语言模型微调中的人工纠缠 / Artificial Entanglement in the Fine-Tuning of Large Language Models
这篇论文从量子信息视角出发,将大语言模型的高效微调方法(如LoRA)中的参数更新结构类比为量子纠缠,发现其内部参数和外部注意力分别遵循不同的“纠缠”规律,并借用黑洞物理的“无毛定理”来解释为何仅更新少量参数就能有效适配新任务。
DR-LoRA:面向专家混合模型调优的动态秩LoRA方法 / DR-LoRA: Dynamic Rank LoRA for Mixture-of-Experts Adaptation
这篇论文提出了一种名为DR-LoRA的新方法,它能够根据任务需求,动态地为大语言模型中的不同专家模块分配不同的学习能力,从而在相同参数预算下实现更高效、性能更好的模型调优。
DreamStyle:一种统一的视频风格化框架 / DreamStyle: A Unified Framework for Video Stylization
这篇论文提出了一个名为DreamStyle的统一框架,它能同时支持文本、参考图片和首帧引导的视频风格化,并通过创新的数据构建和模型训练方法,有效解决了现有方法风格不一致和画面闪烁的问题,显著提升了视频质量和风格一致性。
利用混合LoRA改进递归Transformer模型 / Improving Recursive Transformers with Mixture of LoRAs
这篇论文提出了一种名为MoL的轻量级方法,通过在共享网络中插入可动态选择的低秩适配器,成功解决了递归Transformer因参数共享而导致的表达能力下降问题,使得小模型也能达到甚至超越大模型的性能,并且推理时还能压缩成一个高效模块。
超越效率:面向大语言模型的量化增强强化学习 / QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
本文提出了一种名为QeRL的量化增强强化学习框架,它不仅通过降低内存占用和加速训练过程来提升大语言模型强化学习的效率,还巧妙地利用量化噪声增强策略探索能力,从而在数学推理等任务上达到与全参数微调相当甚至更好的性能。
请先 登录 后再提交论文