arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2510.21697

arXiv 提交日期: 2025-10-24

computer vision model training theory diffusion models geometric reasoning image generation problem solving visual representation

视觉扩散模型作为几何求解器 / Visual Diffusion Models are Geometric Solvers

1️⃣ 一句话总结

这篇论文发现标准的视觉扩散模型能够通过将几何问题转化为图像生成任务，直接解决包括内接正方形问题在内的多个著名几何难题，无需专门设计模型结构。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21682

arXiv 提交日期: 2025-10-24

computer vision aigc systems 3d scene generation infinite environments hierarchical framework block inpainting coarse-to-fine generation

WorldGrow：生成无限3D世界 / WorldGrow: Generating Infinite 3D World

1️⃣ 一句话总结

这篇论文提出了一种名为WorldGrow的分层框架，通过利用预训练3D模型的结构化场景块生成能力，解决了现有方法在无限扩展3D世界时面临的几何不一致和规模限制问题，能够高效创建大规模、连贯且逼真的虚拟环境。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21447

arXiv 提交日期: 2025-10-24

robotics computer vision model training world models deformable objects physics simulation graph neural networks digital twin

PhysWorld：通过物理感知演示合成，从真实视频到可变形物体的世界模型 / PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

1️⃣ 一句话总结

这篇论文提出了PhysWorld框架，它利用模拟器生成大量物理上合理的演示数据来训练高效的世界模型，从而能够快速准确地预测各种可变形物体的未来状态，并且推理速度比现有先进方法快47倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20820

arXiv 提交日期: 2025-10-23

computer vision aigc model training personalized generation multi-human composition layered representation image editing spatial control

LayerComposer：基于分层画布的多人物个性化图像生成 / LayerComposer: Multi-Human Personalized Generation via Layered Canvas

1️⃣ 一句话总结

这项研究提出了一种名为LayerComposer的新方法，通过分层画布让用户能够像使用专业图像编辑软件一样，直观地放置和调整多个人物，从而生成高质量、无遮挡且身份特征保持准确的个性化图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20803

arXiv 提交日期: 2025-10-23

computer vision model training multi-modal image segmentation autoregressive generation multimodal llms vq-vae pixel-level understanding

ARGenSeg：基于自回归图像生成模型的图像分割方法 / ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

1️⃣ 一句话总结

这篇论文提出了一种名为ARGenSeg的新方法，通过将图像分割任务融入多模态大语言模型并采用图像生成方式，实现了更精细的像素级分割，同时大幅提升了推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20766

arXiv 提交日期: 2025-10-23

computer vision model training aigc diffusion transformers positional encoding high-resolution generation training-free extrapolation image synthesis

DyPE：面向超高分辨率扩散模型的动态位置外推方法 / DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

1️⃣ 一句话总结

这项研究提出了一种无需重新训练的动态位置外推技术，通过自适应调整扩散模型的位置编码来匹配生成过程中的频谱变化，从而在零额外采样成本下实现远超训练分辨率的图像生成，显著提升了超高分辨率图像的质量和细节表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.19949

arXiv 提交日期: 2025-10-22

agents systems computer vision cross-platform agents visual observation hierarchical context planning execution self-verification

冲浪者2：新一代跨平台计算机使用智能体 / Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

1️⃣ 一句话总结

这项研究开发了一个名为Surfer 2的通用智能体系统，它仅通过视觉观察就能在网页、桌面和移动设备上执行复杂任务，并在多个测试平台上超越现有系统和人类表现，为实现通用计算机控制提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.19944

arXiv 提交日期: 2025-10-22

computer vision robotics systems 3d generation physics simulation asset creation embodied ai scene generation

Seed3D 1.0：从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

1️⃣ 一句话总结

这篇论文提出了一个名为Seed3D 1.0的基础模型，能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产，这些资产无需复杂配置即可集成到物理引擎中，解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.19278

arXiv 提交日期: 2025-10-22

computer vision model training aigc text-to-image numeracy object counting diffusion models differentiable critics

D2D：从检测器到可微分评论家以改进文本到图像生成中的数字准确性 / D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

1️⃣ 一句话总结

这项研究提出了一种新方法，将原本无法直接用于梯度优化的目标检测模型转化为可微分的指导模块，从而显著提升了AI图像生成模型在生成正确数量物体方面的准确性，且不影响图像质量和计算效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.17234

arXiv 提交日期: 2025-10-20

multi-modal computer vision model training continual learning audio-visual segmentation modality entanglement sample rehearsal multi-modal semantic drift

持续音视频分割中的模态纠缠驯服 / Taming Modality Entanglement in Continual Audio-Visual Segmentation

1️⃣ 一句话总结

本文提出了一种新的持续音视频分割任务，通过设计碰撞式多模态复习框架，解决了多模态语义漂移和共现混淆问题，显著提升了模型在连续学习新类别时的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.21697

1️⃣ 一句话总结

arXiv ID: 2510.21682

1️⃣ 一句话总结

arXiv ID: 2510.21447

1️⃣ 一句话总结

arXiv ID: 2510.20820

1️⃣ 一句话总结

arXiv ID: 2510.20803

1️⃣ 一句话总结

arXiv ID: 2510.20766

1️⃣ 一句话总结

arXiv ID: 2510.19949

1️⃣ 一句话总结

arXiv ID: 2510.19944

1️⃣ 一句话总结

arXiv ID: 2510.19278

1️⃣ 一句话总结

arXiv ID: 2510.17234

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.21697 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21447 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20820 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20766 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.19949 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.19944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.19278 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.17234 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.21697

arXiv ID: 2510.21682

arXiv ID: 2510.21447

arXiv ID: 2510.20820

arXiv ID: 2510.20803

arXiv ID: 2510.20766

arXiv ID: 2510.19949

arXiv ID: 2510.19944

arXiv ID: 2510.19278

arXiv ID: 2510.17234