arXiv最新AI论文速览速学

🔍

retrieval ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 94 72小时内新更新论文 72h更新 94 最新: Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding 06-09

arXiv ID: 2606.09331

arXiv 提交日期: 2026-06-08

multi-modal model training retrieval omni-modal retrieval embedding fusion projector drift decoupled training audio retrieval

Conan-embedding-v3：融合模态专用模型实现全模态嵌入 / Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

1️⃣ 一句话总结

本文提出一种名为Conan-embedding-v3的新框架，通过先独立训练处理不同数据类型（如文本、图像、视频、音频）的专用模型，再将它们的能力融合到一个统一模型中，并专门解决融合时音频模块性能下降的“投影漂移”问题，最终实现了支持文本、图像、视频、文档和音频等多种数据类型的统一检索系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04604

arXiv 提交日期: 2026-06-03

computer vision multi-modal retrieval composed image retrieval attribute disentanglement prototype learning neighbor relations cross-modal fusion

COMBINER：基于属性邻居关系的组合图像检索 / COMBINER: Composed Image Retrieval Guided by Attribute-based Neighbor Relations

1️⃣ 一句话总结

本文提出了一种名为COMBINER的图像检索方法，通过将图像中的属性特征进行解耦和统一建模，能够区分那些看起来相似但属性不同的图像，从而更准确地根据用户的多模态描述（如文字+示例图）找到目标图片。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21261

arXiv 提交日期: 2026-05-20

multi-modal retrieval zero-shot composed image retrieval semantic transition llm collaboration set-to-set alignment

STiTch：面向零样本组合图像检索的无训练协作语义过渡与传输框架 / STiTch: Semantic Transition and Transportation in Collaboration for Training-Free Zero-Shot Composed Image Retrieval

1️⃣ 一句话总结

本文提出了一种无需训练的零样本组合图像检索方法，通过语义过渡向量精炼文本描述，并利用双向传输距离实现图文之间的细粒度对齐，有效解决了现有方法中文本描述不准确和检索匹配粗糙的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.06285

arXiv 提交日期: 2026-05-07

llm retrieval natural language processing retrieval augmented generation latent reasoning inference latency dense retrieval end-to-end optimization

基于潜在推理与检索的高效智能体RAG框架 / LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

1️⃣ 一句话总结

LatentRAG提出一种新方法，让AI模型在内部‘潜在空间’中完成思考和搜索，而不是逐字生成文字，从而在保持回答质量的同时将推理速度提升近10倍，解决了传统智能体RAG系统响应慢的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17898

arXiv 提交日期: 2026-04-20

multi-modal video retrieval composed video retrieval feature calibration directional bias semantic disentanglement evidence-driven alignment

ReTrack：基于证据驱动的双流方向锚定校准网络用于组合视频检索 / ReTrack: Evidence-Driven Dual-Stream Directional Anchor Calibration Network for Composed Video Retrieval

1️⃣ 一句话总结

本文提出了一种名为ReTrack的新型网络，通过校准视频和文本的组合特征方向偏差，有效解决了组合视频检索中信息密度不匹配导致的检索不准确问题，并在图像检索任务中同样表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09331

1️⃣ 一句话总结

arXiv ID: 2606.04604

1️⃣ 一句话总结

arXiv ID: 2605.21261

1️⃣ 一句话总结

arXiv ID: 2605.06285

1️⃣ 一句话总结

arXiv ID: 2604.17898

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09331 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21261 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.06285 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17898 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09331

arXiv ID: 2606.04604

arXiv ID: 2605.21261

arXiv ID: 2605.06285

arXiv ID: 2604.17898