arXiv最新AI论文速览速学

🔍

标签: #segmentation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: AnchorDiff: Training-Free Concept Grounding for MM-DiTs via Anchor-Based Graph Propagation 05-27

arXiv ID: 2605.26460

arXiv 提交日期: 2026-05-26

multi-modal computer vision diffusion transformers concept grounding concept leakage attention propagation segmentation

AnchorDiff：基于锚点图传播的无训练概念定位方法用于多模态扩散Transformer / AnchorDiff: Training-Free Concept Grounding for MM-DiTs via Anchor-Based Graph Propagation

1️⃣ 一句话总结

本文提出了一种无需额外训练的方法AnchorDiff，通过先从注意力图中选出高置信度的锚点，再利用图传播技术将信息精确扩散到图像中的对应物体上，有效解决了多模态扩散模型在混淆概念上的错误激活问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15475

arXiv 提交日期: 2026-05-14

computer vision machine learning point cloud graph representation interpretability classification segmentation

一种基于t-FCW图表示的统一非参数化与可解释性点云分析方法 / A Unified Non-Parametric and Interpretable Point Cloud Analysis via t-FCW Graph Representation

1️⃣ 一句话总结

该论文提出了一种改进的t-FCW图表示方法，用于高效、可解释地分析三维点云，将其作为特征提取器实现分类、部件分割和语义分割，在保持高精度和可解释性的同时，仅需数秒即可完成ModelNet40分类任务，并且既可以作为独立的轻量级基线模型，也可以作为插件增强现有深度学习模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26437

arXiv 提交日期: 2026-04-29

medical machine learning covid-19 detection chest x-ray data augmentation segmentation classification

数据增强和分割是否总是必要的？来自COVID-19 X光片的见解及其方法论 / Are Data Augmentation and Segmentation Always Necessary? Insights from COVID-19 X-Rays and a Methodology Thereof

1️⃣ 一句话总结

本研究通过分析COVID-19患者胸部X光片的AI诊断过程，发现肺部分割对提高预测准确性至关重要，而过度数据增强反而会导致模型过拟合，并在此基础上提出了一种名为SDL-COVID的新方法，实现了95.21%的高精度和更低的漏诊率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18201

arXiv 提交日期: 2026-04-20

computer vision multi-modal model evaluation object grounding diffusion models remote sensing segmentation zero-shot learning

DiffuSAM：用于遥感图像的扩散模型引导零样本目标定位 / DiffuSAM: Diffusion Guided Zero-Shot Object Grounding for Remote Sensing Imagery

1️⃣ 一句话总结

这篇论文提出了一种名为DiffuSAM的新方法，它巧妙地将能够理解文本的扩散模型与先进的图像分割模型结合起来，无需额外训练就能在复杂的遥感图像中更准确地找到并框出目标物体，实验证明其定位准确率比现有最好方法提升了超过14%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14703

arXiv 提交日期: 2026-04-16

computer vision model training model evaluation image manipulation localization adversarial evidence reinforcement learning segmentation forensics

像素的法庭审判：通过对抗性证据与强化学习判决实现鲁棒的图像篡改定位 / The Courtroom Trial of Pixels: Robust Image Manipulation Localization via Adversarial Evidence and Reinforcement Learning Judgment

1️⃣ 一句话总结

这篇论文提出了一种新颖的法庭审判式框架，通过让‘控方’和‘辩方’分别提出图像篡改与真实的证据，并引入一个强化学习‘法官’对不确定区域进行最终裁决，从而显著提升了在篡改痕迹微弱或模糊情况下的图像篡改定位准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14147

arXiv 提交日期: 2026-04-15

multi-modal model enhancement computer vision segmentation retrieval-augmented generation novel entities multimodal llm benchmark

ROSE：面向检索的分割增强 / ROSE: Retrieval-Oriented Segmentation Enhancement

1️⃣ 一句话总结

这篇论文提出了一个名为ROSE的即插即用框架，通过智能检索网络上的最新图文信息，帮助现有的多模态图像分割模型识别训练数据中从未见过或需要最新知识才能准确识别的新兴物体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29927

arXiv 提交日期: 2026-03-31

computer vision systems model training image compression segmentation region-of-interest lossless compression wind turbine inspection

面向风力涡轮机的端到端图像压缩：基于分割引导的双重编码 / End-to-End Image Compression with Segmentation Guided Dual Coding for Wind Turbines

1️⃣ 一句话总结

这篇论文提出了一种用于风力涡轮机巡检图像的新型智能压缩方法，它通过自动识别叶片区域，对关键部分进行高质量压缩，对背景进行高压缩率处理，从而在保证后续缺陷检测精度的同时，大幅提升图像传输和存储效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10703

arXiv 提交日期: 2026-03-11

multi-modal computer vision natural language processing vision-language models pedestrian navigation segmentation depth estimation accessibility

WalkGPT：基于深度感知分割的视觉-语言对话模型，用于行人导航 / WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

1️⃣ 一句话总结

这篇论文提出了一个名为WalkGPT的新模型，它能够理解街景图像，通过结合语言对话和图像分割技术，为行人（特别是行动不便者）提供准确、可靠的导航建议，指出哪些区域安全可通行、哪些存在障碍，并估算相对距离，同时还发布了一个包含大量街景图像和导航问答的数据集来支持相关研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02907

arXiv 提交日期: 2026-03-03

computer vision model training systems shape representation harmonic beltrami signature deep learning architecture segmentation spatial transformer network

调和Beltrami签名网络：深度学习框架中的一种形状先验模块 / Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

1️⃣ 一句话总结

这篇论文提出了一种名为HBSN的新型深度学习模块，它能从图像中高效提取一种对平移、缩放和旋转不变的形状特征，并作为通用插件提升现有图像分割模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21153

arXiv 提交日期: 2026-02-24

computer vision systems model training mesh generation segmentation skeletal animation contour detection game development

精灵到网格：利用学习到的分割和轮廓感知顶点放置技术实现二维骨骼动画的自动网格生成 / SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

1️⃣ 一句话总结

这篇论文提出了一个名为SPRITETOMESH的全自动系统，它能将二维游戏角色图像快速转换成可用于骨骼动画的三角形网格，通过结合人工智能图像分割和智能算法放置顶点，将原本需要艺术家手动操作数十分钟的工作缩短到几秒钟内完成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.26460

1️⃣ 一句话总结

arXiv ID: 2605.15475

1️⃣ 一句话总结

arXiv ID: 2604.26437

1️⃣ 一句话总结

arXiv ID: 2604.18201

1️⃣ 一句话总结

arXiv ID: 2604.14703

1️⃣ 一句话总结

arXiv ID: 2604.14147

1️⃣ 一句话总结

arXiv ID: 2603.29927

1️⃣ 一句话总结

arXiv ID: 2603.10703

1️⃣ 一句话总结

arXiv ID: 2603.02907

1️⃣ 一句话总结

arXiv ID: 2602.21153

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.26460 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26437 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18201 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14147 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29927 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02907 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21153 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.26460

arXiv ID: 2605.15475

arXiv ID: 2604.26437

arXiv ID: 2604.18201

arXiv ID: 2604.14703

arXiv ID: 2604.14147

arXiv ID: 2603.29927

arXiv ID: 2603.10703

arXiv ID: 2603.02907

arXiv ID: 2602.21153