arXiv ID:
2604.21254
超环变压器 / Hyperloop Transformers
1️⃣ 一句话总结
本文提出一种名为超环变压器(Hyperloop Transformer)的新型语言模型架构,通过循环使用同一组中间层并结合超连接技术,在参数量减少约50%的情况下,仍能超越传统变压器模型的性能,尤其适合内存受限的设备端部署。
超环变压器 / Hyperloop Transformers
本文提出一种名为超环变压器(Hyperloop Transformer)的新型语言模型架构,通过循环使用同一组中间层并结合超连接技术,在参数量减少约50%的情况下,仍能超越传统变压器模型的性能,尤其适合内存受限的设备端部署。
视觉提示的重新构想:激活提示的力量 / Visual prompting reimagined: The power of the Activation Prompts
这篇论文提出了一种名为‘激活提示’的新方法,它通过在模型内部中间层的激活图上添加通用扰动,显著提升了视觉提示技术的性能与效率,超越了传统输入级视觉提示和参数微调方法,并在多种模型和数据集上验证了其优越性。
原位测试时训练 / In-Place Test-Time Training
这篇论文提出了一种名为‘原位测试时训练’的新方法,让大语言模型在推理时能像人一样边用边学、动态更新知识,从而更好地处理海量新信息,而无需从头开始昂贵地重新训练整个模型。
基于MoE的大语言模型中是否存在领域专家? / Do Domain-specific Experts exist in MoE-based LLMs?
这篇论文通过实证研究发现,基于混合专家架构的大语言模型中确实存在专注于特定领域的专家,并在此基础上提出了一种无需额外训练或推理成本的领域导向框架,有效提升了模型在目标和非目标领域的性能。
衔尾蛇:通过输入条件化的LoRA调制实现递归变换器的动态权重生成 / Ouroboros: Dynamic Weight Generation for Recursive Transformers via Input-Conditioned LoRA Modulation
这篇论文提出了一种名为‘衔尾蛇’的新方法,通过一个轻量级的控制器网络,让递归神经网络中的共享权重模块在每次循环时都能根据当前输入动态调整,从而显著提升了模型性能,同时只增加了很少的可训练参数。
AA-SVD:用于大语言模型压缩的锚定自适应奇异值分解方法 / AA-SVD : Anchored and Adaptive SVD for Large Language Model Compression
这篇论文提出了一种新的快速压缩大语言模型的方法,它通过同时考虑原始模型输出和压缩过程中的数据分布变化,实现了无需重新训练就能高效压缩数十亿参数模型,并且在高压縮比下性能显著优于现有方法。
自路由:基于隐藏状态的免参数专家路由机制 / Self-Routing: Parameter-Free Expert Routing from Hidden States
这篇论文提出了一种名为“自路由”的新方法,它无需额外的学习参数,直接利用模型内部隐藏状态的一部分信息来决定如何分配计算任务给不同的专家模块,在保持性能的同时简化了混合专家模型的结构并提升了资源利用的均衡性。
UniMixer:推荐系统中实现缩放定律的统一架构 / UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
这篇论文提出了一个名为UniMixer的统一架构,通过将推荐系统中主流的注意力、TokenMixer和因子分解机等不同缩放方法整合到一个理论框架内,并设计了更高效的轻量版模块,从而在减少计算成本的同时显著提升了模型性能。
通过矩阵乘积算子分解压缩Transformer语言模型:以PicoGPT为例的研究 / Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT
这篇论文提出了一种名为矩阵乘积算子分解的新方法,能有效压缩Transformer语言模型的参数规模,在PicoGPT模型上实现了高达13倍的压缩率,同时保持了与原模型相近的准确率,为在资源有限的设备上部署大语言模型提供了新思路。
并非所有层都生而平等:用于个性化图像生成的自适应LoRA秩 / Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation
这篇论文提出了一种名为LoRA²的新方法,它能让AI模型在微调生成个性化图片时,自动为不同层分配合适的复杂度(即“秩”),从而在保证生成质量的同时,显著降低内存消耗和计算成本。
请先 登录 后再提交论文