arXiv最新AI论文速览速学

🔍

标签: #visual prompting ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Visual Prompting Meets Feature Reconstruction-Based Anomaly Detection with Dual-Teacher Supervision 06-09

arXiv ID: 2606.09670

arXiv 提交日期: 2026-06-08

computer vision model training anomaly detection visual prompting dual-teacher supervision feature reconstruction data augmentation

视觉提示与双教师监督下的基于特征重建的异常检测 / Visual Prompting Meets Feature Reconstruction-Based Anomaly Detection with Dual-Teacher Supervision

1️⃣ 一句话总结

该论文提出了一种结合视觉提示、双教师监督和扩散生成数据增强的异常检测方法，通过隔离物体、解冻教师模型和合成异常图像，显著提升了在复杂真实场景下的检测性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01945

arXiv 提交日期: 2026-06-01

computer vision machine learning visual prompting spiking neural network low-rank factorization sparse prompting model adaptation

超越低秩：基于脉冲神经网络与提示因子分解的低秩稀疏提示方法 / Beyond Low-Rank: Low-Rank Sparse Prompting via Spiking Neural Network and Prompt Factorization

1️⃣ 一句话总结

本文提出一种名为LoRSP的新方法，通过模拟大脑神经元脉冲的稀疏放电机制，并在图像输入上动态生成低秩且稀疏的视觉提示，从而实现更高效、更鲁棒的模型微调，在减少参数的同时取得了与现有方法相当的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06748

arXiv 提交日期: 2026-04-08

computer vision multi-modal model training in-context learning interactive segmentation user guidance visual prompting model adaptation

从静态到交互：将视觉上下文学习模型适配于用户驱动任务 / From Static to Interactive: Adapting Visual in-Context Learners for User-Driven Tasks

1️⃣ 一句话总结

这篇论文提出了一种简单有效的方法，将原本只能被动接受示例的静态视觉上下文学习模型，改造成能通过用户涂鸦、点击或画框等自然交互方式进行实时引导和控制的智能系统，从而在图像分割、超分辨率和对象移除等任务上显著提升了交互性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06440

arXiv 提交日期: 2026-04-07

computer vision model training machine learning visual prompting activation prompts fine-tuning vision transformers parameter efficiency

视觉提示的重新构想：激活提示的力量 / Visual prompting reimagined: The power of the Activation Prompts

1️⃣ 一句话总结

这篇论文提出了一种名为‘激活提示’的新方法，它通过在模型内部中间层的激活图上添加通用扰动，显著提升了视觉提示技术的性能与效率，超越了传统输入级视觉提示和参数微调方法，并在多种模型和数据集上验证了其优越性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23186

arXiv 提交日期: 2026-03-24

multi-modal model evaluation video video large language models temporal reasoning visual prompting efficiency frame selection

ViKey：通过视觉提示增强视频时序理解 / ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting

1️⃣ 一句话总结

这篇论文提出了一种名为ViKey的免训练框架，通过为视频帧添加序号等简单视觉提示，帮助视频大语言模型更好地理解事件的时间顺序和关联，从而在只使用少量视频帧的情况下，也能达到与处理全部密集帧相近的时序推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15011

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training chemical diagram parsing vision-language models visual prompting reinforcement learning benchmark

用于化学反应图解析的分子标识符视觉提示与可验证强化学习 / Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing

1️⃣ 一句话总结

这篇论文通过引入分子标识符作为视觉提示来激活模型化学知识，并结合一种可验证的强化学习算法，有效提升了视觉语言模型在解析化学反应图时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14659

arXiv 提交日期: 2026-03-15

video model training reinforcement learning video reasoning spatio-temporal grounding visual prompting self-distillation object-aware rewards

VisionCoach：通过视觉感知提示强化基于视频的推理 / VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting

1️⃣ 一句话总结

这篇论文提出了一种名为VisionCoach的新方法，通过在训练时自适应地使用视觉提示来引导模型关注视频中与问题相关的关键信息，从而显著提升了模型在视频推理任务中定位和追踪目标的能力，并且最终模型在推理时无需额外提示即可高效运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08007

arXiv 提交日期: 2026-03-09

multi-modal agents natural language processing vision-language navigation spatial reasoning visual prompting aerial navigation benchmark evaluation

ViSA增强的空中视觉语言导航：一个视觉-空间推理增强的框架 / ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种新的视觉-空间推理增强框架，通过结构化视觉提示让视觉语言模型直接在图像上进行推理，无需额外训练，从而显著提升了无人机根据语言指令导航的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19193

arXiv 提交日期: 2026-02-22

robotics agents computer vision pushing policy visual prompting flow matching non-prehensile manipulation table-cleaning

视觉提示引导的统一推动策略 / Visual Prompt Guided Unified Pushing Policy

1️⃣ 一句话总结

这项研究提出了一种新型的机器人推动策略，它通过引入简单的视觉提示来指导机器人进行灵活、多模式的推动操作，从而能够高效地适应各种不同的任务场景，比如桌面整理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11730

arXiv 提交日期: 2026-02-12

computer vision multi-modal reinforcement learning spatial-temporal video grounding visual prompting instance-level reasoning reinforcement learning vision-language models

STVG-R1：通过强化学习激励视频中的实例级推理与定位 / STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为STVG-R1的新方法，它通过给视频中的每个物体分配一个独特的、贯穿视频始终的“身份证”，并利用强化学习来训练模型，从而让AI更准确、更高效地在视频中定位和追踪被描述的物体，大幅提升了现有技术的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09670

1️⃣ 一句话总结

arXiv ID: 2606.01945

1️⃣ 一句话总结

arXiv ID: 2604.06748

1️⃣ 一句话总结

arXiv ID: 2604.06440

1️⃣ 一句话总结

arXiv ID: 2603.23186

1️⃣ 一句话总结

arXiv ID: 2603.15011

1️⃣ 一句话总结

arXiv ID: 2603.14659

1️⃣ 一句话总结

arXiv ID: 2603.08007

1️⃣ 一句话总结

arXiv ID: 2602.19193

1️⃣ 一句话总结

arXiv ID: 2602.11730

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09670 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06748 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06440 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08007 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19193 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11730 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09670

arXiv ID: 2606.01945

arXiv ID: 2604.06748

arXiv ID: 2604.06440

arXiv ID: 2603.23186

arXiv ID: 2603.15011

arXiv ID: 2603.14659

arXiv ID: 2603.08007

arXiv ID: 2602.19193

arXiv ID: 2602.11730