arXiv最新AI论文速览速学

🔍

标签: #visual-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization 04-15

arXiv ID: 2604.12346

arXiv 提交日期: 2026-04-14

computer vision video model training video grounding parameter-efficient adaptation spatio-temporal localization visual-language models data-efficient learning

解锁Grounding DINO在视频中的潜力：面向有限数据的时空定位的参数高效适应方法 / Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization

1️⃣ 一句话总结

这篇论文提出了一种名为ST-GD的数据高效框架，它通过冻结预训练好的2D视觉语言模型并仅添加少量可训练参数，成功地将模型适应到视频时空定位任务中，从而在数据稀缺的情况下也能取得优异的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08516

arXiv 提交日期: 2026-04-09

agents systems model training web agents visual-language models open-source data browser automation multimodal agents

MolmoWeb：面向开放网络的开放视觉网络智能体与开放数据集 / MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

1️⃣ 一句话总结

这篇论文提出了一个完全开源的视觉网络智能体MolmoWeb及其配套的多样化训练数据集MolmoWebMix，旨在通过开放模型、数据和代码，推动网络智能体研究的透明化与社区协作，并在多项网页任务基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18003

arXiv 提交日期: 2026-03-18

multi-modal llm model training skeleton understanding differentiable rendering multimodal reasoning visual-language models cross-format transfer

通过可微分渲染与多模态大语言模型实现通用骨架理解 / Universal Skeleton Understanding via Differentiable Rendering and MLLMs

1️⃣ 一句话总结

这篇论文提出了一种名为SkeletonLLM的新方法，它通过一个可微分的通用渲染器将各种骨架动作数据转换成图像序列，让原本只能处理图像和文本的多模态大模型能够直接理解和推理人体动作，从而在识别、描述和跨格式迁移等多种任务上表现出强大的通用能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06993

arXiv 提交日期: 2026-01-11

multi-modal model evaluation natural language processing fine-grained visual classification chain-of-thought reasoning length multi-reward optimization visual-language models

文本推理能否提升多模态大语言模型在细粒度视觉分类上的性能？ / Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?

1️⃣ 一句话总结

这篇论文发现，在多模态大模型执行细粒度图像分类任务时，让模型进行更长的文本推理（即“多思考”）反而会降低其分类准确率，作者将这一现象称为“思考的代价”，并提出了新的训练框架来约束推理长度、提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.12346

1️⃣ 一句话总结

arXiv ID: 2604.08516

1️⃣ 一句话总结

arXiv ID: 2603.18003

1️⃣ 一句话总结

arXiv ID: 2601.06993

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.12346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18003 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06993 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.12346

arXiv ID: 2604.08516

arXiv ID: 2603.18003

arXiv ID: 2601.06993