arXiv最新AI论文速览速学

🔍

标签: #cross-attention ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 177 最新: DualGeo: A Dual-View Framework for Worldwide Image Geo-localization 04-29

arXiv ID: 2604.25533

arXiv 提交日期: 2026-04-28

computer vision multi-modal geo-localization cross-attention contrastive learning gps alignment large multimodal models

DualGeo：用于全球图像地理定位的双视角框架 / DualGeo: A Dual-View Framework for Worldwide Image Geo-localization

1️⃣ 一句话总结

本文提出DualGeo框架，通过融合图像与语义分割特征的对比学习建立全球检索库，并利用地理聚类和大语言模型对候选地点重新排序，从而在多种尺度上显著提升全球图像地理定位的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24493

arXiv 提交日期: 2026-04-27

computer vision aigc face swapping diffusion model identity preservation cross-attention facial generation

跨注意力引导的身份条件扩散模型实现身份一致的换脸 / CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

1️⃣ 一句话总结

本文提出了一种名为CA-IDD的新型换脸方法，首次利用扩散模型结合多尺度跨注意力机制，将源人脸的身份特征精准迁移到目标人脸上，同时保留目标的表情、姿势和背景，在保持身份一致性和图像真实感方面超越了传统的GAN方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21627

arXiv 提交日期: 2026-04-23

computer vision systems face morphing diffusion model cross-attention identity verification attack detection

DCMorph：基于双流交叉注意力扩散的人脸变形方法 / DCMorph: Face Morphing via Dual-Stream Cross-Attention Diffusion

1️⃣ 一句话总结

本文提出了一种名为DCMorph的新型人脸变形攻击方法，通过双流扩散模型从两个源人脸的身份特征和潜在空间表示两个层面同时进行融合，生成更逼真、更难被检测的人脸图像，从而显著提高了对主流身份验证系统的攻击成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12446

arXiv 提交日期: 2026-04-14

model evaluation multi-modal aigc backdoor detection diffusion models cross-attention security text-to-image

尺度放大暴露触发器：通过交叉注意力缩放进行文生图扩散模型的输入级后门检测 / Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling

1️⃣ 一句话总结

这篇论文提出了一种名为SET的新方法，通过主动扰动文生图AI模型中的交叉注意力机制，发现并利用正常输入与恶意后门输入在去噪过程中的响应差异，从而无需攻击先验知识即可有效检测出隐蔽的后门攻击。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04407

arXiv 提交日期: 2026-04-06

computer vision multi-modal model training depth super-resolution guided upsampling vision transformers cross-attention semantic priors

NAIMA：语义感知的RGB引导深度超分辨率 / NAIMA: Semantics Aware RGB Guided Depth Super-Resolution

1️⃣ 一句话总结

这篇论文提出了一种名为NAIMA的新方法，通过引入从预训练视觉模型中提取的全局语义信息，有效解决了在利用高分辨率RGB图像增强低分辨率深度图时，因颜色和纹理误导而产生的边界模糊问题，从而显著提升了深度图超分辨率的精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28114

arXiv 提交日期: 2026-03-30

computer vision model training aigc diffusion models cross-attention frequency modulation training-free control image generation

注意力频率调制：扩散交叉注意力的免训练频谱调制 / Attention Frequency Modulation: Training-Free Spectral Modulation of Diffusion Cross-Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力频率调制’的新方法，它通过分析并调整AI文生图模型中‘注意力’信号在不同频率上的分布，无需重新训练就能精细地控制生成图像的细节风格和构图，比如让画面更聚焦于整体轮廓或局部细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14709

arXiv 提交日期: 2026-03-16

machine learning model evaluation systems time series forecasting retrieval-augmented generation zero-shot learning cross-attention foundation models

Cross-RAG：一种通过交叉注意力实现零样本检索增强的时间序列预测方法 / Cross-RAG: Zero-Shot Retrieval-Augmented Time Series Forecasting via Cross-Attention

1️⃣ 一句话总结

这篇论文提出了一种名为Cross-RAG的新方法，它通过一种智能的交叉注意力机制，让时间序列预测模型能够从外部知识库中自动筛选并利用最相关的历史数据，从而显著提升了模型在未见过的数据集上进行零样本预测的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08962

arXiv 提交日期: 2026-02-09

computer vision multi-modal robotics 3d pose forecasting pedestrian-vehicle interaction autonomous driving multi-agent prediction cross-attention

用于车辆条件姿态预测的3D行人-车辆交互建模 / Modeling 3D Pedestrian-Vehicle Interactions for Vehicle-Conditioned Pose Forecasting

1️⃣ 一句话总结

这篇论文提出了一种新的3D行人姿态预测方法，通过让预测模型同时关注行人自身的历史动作和周围车辆的信息，显著提升了自动驾驶系统在复杂城市环境中预测行人未来动作的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19194

arXiv 提交日期: 2026-01-27

audio natural language processing systems speaker diarization speech recognition multi-speaker asr cross-attention model conditioning

SE-DiCoW：自注册的说话人分割条件化Whisper模型 / SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

1️⃣ 一句话总结

本文提出了一种改进的语音识别方法，通过自动选取对话中说话人最活跃的片段作为固定参考，有效解决了多人重叠说话时身份混淆的问题，从而在多语言、多场景的语音转写任务中大幅提升了准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19535

arXiv 提交日期: 2025-12-22

multi-modal model training natural language processing vision-language models cross-attention efficient fusion image understanding video captioning

CASA：通过自注意力实现交叉注意力，用于高效的视觉-语言融合 / CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

1️⃣ 一句话总结

这篇论文提出了一种名为CASA的新方法，它通过巧妙地在交叉注意力层中引入文本自注意力机制，显著提升了视觉-语言模型在处理图像细节时的性能，同时保持了模型在处理长视频或对话时的高效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25533

1️⃣ 一句话总结

arXiv ID: 2604.24493

1️⃣ 一句话总结

arXiv ID: 2604.21627

1️⃣ 一句话总结

arXiv ID: 2604.12446

1️⃣ 一句话总结

arXiv ID: 2604.04407

1️⃣ 一句话总结

arXiv ID: 2603.28114

1️⃣ 一句话总结

arXiv ID: 2603.14709

1️⃣ 一句话总结

arXiv ID: 2602.08962

1️⃣ 一句话总结

arXiv ID: 2601.19194

1️⃣ 一句话总结

arXiv ID: 2512.19535

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21627 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12446 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04407 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14709 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08962 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19194 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19535 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25533

arXiv ID: 2604.24493

arXiv ID: 2604.21627

arXiv ID: 2604.12446

arXiv ID: 2604.04407

arXiv ID: 2603.28114

arXiv ID: 2603.14709

arXiv ID: 2602.08962

arXiv ID: 2601.19194

arXiv ID: 2512.19535