arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference 03-21

arXiv ID: 2602.09523

arXiv 提交日期: 2026-02-10

medical multi-modal model training computational pathology vision-language model dataset synthesis fine-tuning cervical cytology

Singpath-VL技术报告 / Singpath-VL Technical Report

1️⃣ 一句话总结

这篇论文提出了一个专门用于宫颈细胞病理学分析的AI助手Singpath-VL，它通过创新的方法生成大规模合成数据集来训练模型，从而在细胞形态识别和诊断分类任务上表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10173

arXiv 提交日期: 2026-02-10

computer vision systems multi-modal 3d gaussian splatting interactive segmentation ai-assisted editing video diffusion scene editing

ArtisanGS：结合人工智能与人机交互的高斯溅射选择交互式工具集 / ArtisanGS: Interactive Tools for Gaussian Splat Selection with AI and Human in the Loop

1️⃣ 一句话总结

这篇论文提出了一套名为ArtisanGS的交互式工具，它结合了AI自动选择和人工精细调整，让用户能够轻松地从复杂的三维高斯溅射场景中分割和编辑特定物体，从而支持更灵活的下游应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10023

arXiv 提交日期: 2026-02-10

multi-modal natural language processing model evaluation claim verification evidence retrieval explainable ai graph-based reasoning scientific dataset

MEVER：基于图证据检索的多模态可解释声明验证 / MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval

1️⃣ 一句话总结

这篇论文提出了一种名为MEVER的新模型，它能够同时从文本和图像中检索证据、验证声明的真伪，并生成解释性的文字说明，从而让AI的验证过程更准确、更透明，特别是在处理科学图表等复杂信息时效果显著。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09586

arXiv 提交日期: 2026-02-10

computer vision natural language processing multi-modal spectral clustering vision-language models neural tangent kernel unsupervised learning cross-modal alignment

探索基于视觉-语言表征的谱聚类 / Delving into Spectral Clustering with Vision-Language Representations

1️⃣ 一句话总结

这篇论文提出了一种利用预训练视觉-语言模型进行多模态谱聚类的新方法，通过结合图像的视觉相似性和语义重叠来提升聚类效果，在多个基准测试中大幅超越了现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09843

arXiv 提交日期: 2026-02-10

multi-modal llm model training vision-language model autoregressive model discrete tokenization unified modeling visual understanding

Kelix技术报告 / Kelix Technique Report

1️⃣ 一句话总结

这篇论文提出了一个名为Kelix的模型，它通过一种全新的离散视觉编码方法，成功统一了多模态数据的理解和生成能力，解决了以往视觉语言模型中离散表示理解能力不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09611

arXiv 提交日期: 2026-02-10

llm multi-modal model evaluation watermarking vision-language models attention mechanism intellectual property generation fidelity

AGMark：面向大型视觉语言模型的注意力引导动态水印技术 / AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

1️⃣ 一句话总结

本文提出了一种名为AGMark的新型水印框架，它能够根据图像内容和生成过程的动态变化，智能地选择关键位置嵌入水印，从而在有效保护模型知识产权的同时，显著提升生成文本的质量和与图像的语义关联度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09713

arXiv 提交日期: 2026-02-10

computer vision multi-modal model training 3d generation rigged mesh skeleton generation latent diffusion stroke-based modeling

Stroke3D：通过潜在扩散模型将2D笔划提升为可装配的3D模型 / Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

1️⃣ 一句话总结

这篇论文提出了一个名为Stroke3D的新框架，它能让用户通过简单的2D草图描述和文字提示，直接生成带有骨骼、可以立即用于动画制作的3D模型，大大简化了3D内容创作的流程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09315

arXiv 提交日期: 2026-02-10

medical multi-modal model training wound assessment transfer learning risk prediction medical imaging deep learning

一种用于评估患者伤口愈合情况的深度多模态方法 / A Deep Multi-Modal Method for Patient Wound Healing Assessment

1️⃣ 一句话总结

这篇论文提出了一种结合伤口图像和临床变量的深度多模态模型，旨在预测患者的伤口恶化风险及住院可能性，以帮助医生早期发现复杂情况并减少诊断时间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08167

arXiv 提交日期: 2026-02-09

agents robotics multi-modal embodied reasoning self-supervised learning vision-language-action models bootstrapping action prediction

行动预测具身推理的自监督引导方法 / Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning

1️⃣ 一句话总结

这项研究提出了一种名为R&B-EnCoRe的新方法，让AI模型能够通过自我监督的方式，自动从海量网络知识中提炼出对具体物理任务（如机械臂操作、机器人导航）最有效的推理策略，从而显著提升任务执行的成功率，无需依赖人工标注或固定模板。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08249

arXiv 提交日期: 2026-02-09

medical multi-modal model training diffusion models image reconstruction image synthesis multimodal imaging virtual inpainting

基于去噪扩散模型的多模态图像重建与合成的统一框架 / A Unified Framework for Multimodal Image Reconstruction and Synthesis using Denoising Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一个名为Any2all的统一框架，它利用单个去噪扩散模型，通过将其视为一个虚拟的‘图像修复’问题，成功解决了多种多模态图像重建与合成任务，避免了为每个任务单独训练模型的繁琐，并在实验中取得了优异且感知质量更好的结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.09523

1️⃣ 一句话总结

arXiv ID: 2602.10173

1️⃣ 一句话总结

arXiv ID: 2602.10023

1️⃣ 一句话总结

arXiv ID: 2602.09586

1️⃣ 一句话总结

arXiv ID: 2602.09843

1️⃣ 一句话总结

arXiv ID: 2602.09611

1️⃣ 一句话总结

arXiv ID: 2602.09713

1️⃣ 一句话总结

arXiv ID: 2602.09315

1️⃣ 一句话总结

arXiv ID: 2602.08167

1️⃣ 一句话总结

arXiv ID: 2602.08249

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.09523 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10023 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09586 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09843 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09611 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09713 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09315 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08167 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08249 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.09523

arXiv ID: 2602.10173

arXiv ID: 2602.10023

arXiv ID: 2602.09586

arXiv ID: 2602.09843

arXiv ID: 2602.09611

arXiv ID: 2602.09713

arXiv ID: 2602.09315

arXiv ID: 2602.08167

arXiv ID: 2602.08249