arXiv ID:
2603.15031
注意力残差 / Attention Residuals
1️⃣ 一句话总结
这篇论文提出了一种名为‘注意力残差’的新方法,它用可学习的注意力机制取代了传统大语言模型中固定权重的残差连接,从而让模型能根据输入内容动态选择性地组合不同深度的信息,有效缓解了深层网络中的信息稀释问题,并在实际训练中提升了模型性能。
注意力残差 / Attention Residuals
这篇论文提出了一种名为‘注意力残差’的新方法,它用可学习的注意力机制取代了传统大语言模型中固定权重的残差连接,从而让模型能根据输入内容动态选择性地组合不同深度的信息,有效缓解了深层网络中的信息稀释问题,并在实际训练中提升了模型性能。
重新思考注意力输出投影:用于高效Transformer的结构化哈达玛变换 / Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers
这篇论文提出用一种固定的、无需参数的哈达玛变换加上一个轻量级可学习的缩放操作,来替代Transformer中计算量大、参数多的注意力输出投影层,能在保持模型性能的同时显著减少参数、内存消耗并提升推理速度。
MoRe:一种感知运动的4D重建前馈Transformer / MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer
这篇论文提出了一种名为MoRe的高效前馈神经网络,它能从单目视频中快速重建出动态3D场景,核心是通过一种注意力机制巧妙地将场景中的动态物体和静态背景分离开来,解决了传统方法因物体移动导致相机定位不准的难题,并且重建速度快、质量高。
基于YOLOv10的自适应增强与双池化序列注意力轻量化水下目标检测 / Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10
这项研究提出了一种基于YOLOv10的轻量化水下目标检测新方法,通过自适应图像增强、序列注意力机制和改进的损失函数,在保持模型小巧的同时,显著提升了在光线差、对比度低等复杂水下环境中的检测准确率。
用于Transformer的数据感知随机特征核 / Data-Aware Random Feature Kernel for Transformers
这篇论文提出了一种名为DARKFormer的新型Transformer模型,它通过一种数据感知的随机特征核来高效近似注意力计算,在保持线性计算复杂度的同时,显著提升了模型在预训练后微调场景下的性能表现。
HiFi-Inpaint:面向生成细节保留的人-物图像的高保真参考修复方法 / HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
这篇论文提出了一个名为HiFi-Inpaint的新框架,通过引入共享增强注意力和细节感知损失,并构建一个新的大规模数据集,专门用于生成能高保真保留产品细节的人与产品融合图像。
T1:用于多元时间序列插补的一对一通道-注意力头绑定方法 / T1: One-to-One Channel-Head Binding for Multivariate Time-Series Imputation
本文提出了一种名为T1的新型神经网络模型,它通过将卷积通道与注意力头一对一绑定的独特设计,有效解决了多元时间序列数据在严重缺失情况下的精准补全难题,在多种数据集上显著超越了现有方法。
交错头注意力机制 / Interleaved Head Attention
这篇论文提出了一种名为‘交错头注意力’的新方法,通过让注意力头之间在计算时相互通信,有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题,从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。
基于注意力特征自适应的对比学习框架在街景图像分类中的应用 / A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification
这篇论文提出了一种名为CLIP-MHAdapter的轻量级改进方法,通过在预训练视觉语言模型CLIP上添加一个带有多头自注意力机制的小型网络模块,使其能更有效地捕捉街景图像中细粒度的局部特征,从而以较低的算力成本在多个街景属性分类任务上取得了领先或具有竞争力的准确率。
SEMixer:用于多尺度混合与长期时间序列预测的语义增强型MLP-Mixer / SEMixer: Semantics Enhanced MLP-Mixer for Multiscale Mixing and Long-term Time Series Forecasting
这篇论文提出了一种名为SEMixer的轻量级模型,它通过创新的随机注意力机制和多尺度渐进混合链,有效解决了长期时间序列预测中多尺度模式建模的难题,并在多个公开数据集和真实工业挑战中验证了其优越性能。
请先 登录 后再提交论文