arXiv ID:
2510.21697
视觉扩散模型作为几何求解器 / Visual Diffusion Models are Geometric Solvers
1️⃣ 一句话总结
这篇论文发现标准的视觉扩散模型能够通过将几何问题转化为图像生成任务,直接解决包括内接正方形问题在内的多个著名几何难题,无需专门设计模型结构。
视觉扩散模型作为几何求解器 / Visual Diffusion Models are Geometric Solvers
这篇论文发现标准的视觉扩散模型能够通过将几何问题转化为图像生成任务,直接解决包括内接正方形问题在内的多个著名几何难题,无需专门设计模型结构。
WorldGrow:生成无限3D世界 / WorldGrow: Generating Infinite 3D World
这篇论文提出了一种名为WorldGrow的分层框架,通过利用预训练3D模型的结构化场景块生成能力,解决了现有方法在无限扩展3D世界时面临的几何不一致和规模限制问题,能够高效创建大规模、连贯且逼真的虚拟环境。
PhysWorld:通过物理感知演示合成,从真实视频到可变形物体的世界模型 / PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
这篇论文提出了PhysWorld框架,它利用模拟器生成大量物理上合理的演示数据来训练高效的世界模型,从而能够快速准确地预测各种可变形物体的未来状态,并且推理速度比现有先进方法快47倍。
LayerComposer:基于分层画布的多人物个性化图像生成 / LayerComposer: Multi-Human Personalized Generation via Layered Canvas
这项研究提出了一种名为LayerComposer的新方法,通过分层画布让用户能够像使用专业图像编辑软件一样,直观地放置和调整多个人物,从而生成高质量、无遮挡且身份特征保持准确的个性化图像。
ARGenSeg:基于自回归图像生成模型的图像分割方法 / ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
这篇论文提出了一种名为ARGenSeg的新方法,通过将图像分割任务融入多模态大语言模型并采用图像生成方式,实现了更精细的像素级分割,同时大幅提升了推理速度。
DyPE:面向超高分辨率扩散模型的动态位置外推方法 / DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
这项研究提出了一种无需重新训练的动态位置外推技术,通过自适应调整扩散模型的位置编码来匹配生成过程中的频谱变化,从而在零额外采样成本下实现远超训练分辨率的图像生成,显著提升了超高分辨率图像的质量和细节表现。
冲浪者2:新一代跨平台计算机使用智能体 / Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
这项研究开发了一个名为Surfer 2的通用智能体系统,它仅通过视觉观察就能在网页、桌面和移动设备上执行复杂任务,并在多个测试平台上超越现有系统和人类表现,为实现通用计算机控制提供了新方案。
Seed3D 1.0:从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets
这篇论文提出了一个名为Seed3D 1.0的基础模型,能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产,这些资产无需复杂配置即可集成到物理引擎中,解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。
D2D:从检测器到可微分评论家以改进文本到图像生成中的数字准确性 / D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
这项研究提出了一种新方法,将原本无法直接用于梯度优化的目标检测模型转化为可微分的指导模块,从而显著提升了AI图像生成模型在生成正确数量物体方面的准确性,且不影响图像质量和计算效率。
持续音视频分割中的模态纠缠驯服 / Taming Modality Entanglement in Continual Audio-Visual Segmentation
本文提出了一种新的持续音视频分割任务,通过设计碰撞式多模态复习框架,解决了多模态语义漂移和共现混淆问题,显著提升了模型在连续学习新类别时的性能。
请先 登录 后再提交论文