arXiv最新AI论文速览速学

🔍

标签: #visual language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Multimodal Latent Reasoning via Predictive Embeddings 04-13

arXiv ID: 2604.08065

arXiv 提交日期: 2026-04-09

multi-modal model training machine learning latent reasoning predictive embeddings visual language models tool-augmented reasoning perception

基于预测嵌入的多模态潜在推理 / Multimodal Latent Reasoning via Predictive Embeddings

1️⃣ 一句话总结

这篇论文提出了一种名为Pearl的新方法，它让视觉语言模型在‘潜在空间’里学习使用外部工具（如裁剪、深度估算）的经验，从而在推理时无需实际调用这些工具就能提升图像理解能力，既高效又减少了错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19228

arXiv 提交日期: 2026-01-27

multi-modal model training computer vision visual language models segmentation point prediction reinforcement learning pixel-level perception

通过简单点预测实现像素级视觉语言模型感知 / Towards Pixel-Level VLM Perception via Simple Points Prediction

1️⃣ 一句话总结

这篇论文提出了一种名为SimpleSeg的简单有效方法，通过让多模态大语言模型直接预测描述物体边界的坐标点序列，成功赋予了它像素级的图像分割能力，无需复杂专用设计就能达到甚至超越传统方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02242

arXiv 提交日期: 2026-01-05

computer vision model training aigc instruction-based image editing diffusion models parameter efficiency visual language models image generation

VIBE：基于视觉指令的编辑器 / VIBE: Visual Instruction Based Editor

1️⃣ 一句话总结

这篇论文提出了一个名为VIBE的高效图像编辑系统，它通过结合一个较小的视觉语言模型和一个轻量级扩散模型，在保持高质量编辑效果的同时，大幅降低了计算成本和内存需求，使其能在普通硬件上快速运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.03230

arXiv 提交日期: 2025-10-03

computer vision agents systems gui grounding visual language models spatial encoding coordinate prediction autonomous agents

通过显式位置到坐标映射改进图形用户界面定位 / Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

1️⃣ 一句话总结

这项研究通过引入类似地图网格的显式坐标标记和改进的空间编码方法，解决了人工智能在将语言指令映射到屏幕坐标时，因分辨率变化导致的精度下降问题，从而显著提升了跨平台图形界面自动化的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.21767

arXiv 提交日期: 2025-08-29

agents multi-modal systems gui agents visual language models curriculum reinforcement learning mobile interaction perception planning

UItron：具备高级感知与规划能力的GUI基础智能体 / UItron: Foundational GUI Agent with Advanced Perception and Planning

1️⃣ 一句话总结

这篇论文提出了一个名为UItron的开源GUI基础智能体，它通过系统化的数据工程和交互式训练框架，显著提升了在移动端和PC端图形界面上的感知、定位与任务规划能力，尤其在中文应用场景中表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.08065

1️⃣ 一句话总结

arXiv ID: 2601.19228

1️⃣ 一句话总结

arXiv ID: 2601.02242

1️⃣ 一句话总结

arXiv ID: 2510.03230

1️⃣ 一句话总结

arXiv ID: 2508.21767

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.08065 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19228 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02242 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.03230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.21767 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.08065

arXiv ID: 2601.19228

arXiv ID: 2601.02242

arXiv ID: 2510.03230

arXiv ID: 2508.21767