视觉同步:通过跨视角物体运动实现多相机同步 / Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
1️⃣ 一句话总结
这篇论文提出了一种名为VisualSync的优化框架,它利用不同视角下物体运动的几何约束,能够自动、高精度地同步来自多个普通相机的未标定、未同步的视频,无需昂贵硬件或人工干预。
请先 登录 后再提交论文
视觉同步:通过跨视角物体运动实现多相机同步 / Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
这篇论文提出了一种名为VisualSync的优化框架,它利用不同视角下物体运动的几何约束,能够自动、高精度地同步来自多个普通相机的未标定、未同步的视频,无需昂贵硬件或人工干预。
基于鞋款风格不变性与地面感知学习的密集足部接触估计 / Shoe Style-Invariant and Ground-Aware Learning for Dense Foot Contact Estimation
这项研究提出了一个名为FECO的新框架,它通过对抗训练来忽略鞋子外观的多样性,并结合地面特征提取器,从而能够从单张RGB图片中更准确地预测脚底与地面的密集接触情况。
AlignBench:利用合成图像-描述对评估细粒度图文对齐的基准 / AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
这篇论文提出了一个名为AlignBench的新基准测试,它通过评估由多种模型生成的详细图文对来更精细地衡量图像与文本的对齐程度,并发现当前主流模型在细粒度对齐上存在明显缺陷。
利用视觉语言模型从业务流程图中进行结构化信息提取 / Structured Extraction from Business Process Diagrams Using Vision-Language Models
这篇论文提出了一种新方法,利用视觉语言模型直接从业务流程图的图片中自动提取出结构化的信息,即使没有原始的源文件也能准确识别图中的各种元素和文字。
DreamingComics:一种基于视频模型、通过主体与布局定制生成的故事可视化流程 / DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
这篇论文提出了一个名为DreamingComics的故事可视化新方法,它通过改进的视频模型和创新的布局控制技术,能根据文字脚本自动生成漫画风格且角色与画风高度一致的连续画面。
MultiBanana:一个用于多参考文本到图像生成的挑战性基准 / MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
这篇论文提出了一个名为MultiBanana的新基准,它系统地评估了AI模型根据多张参考图片生成新图像的能力,并揭示了现有模型在应对参考图片数量、风格、尺度等复杂差异时的优势和不足。
CauSight:学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery
这篇论文提出了一个名为CauSight的新模型,它能够像人一样从图片中识别出事物之间的因果关系,而不仅仅是看到它们,并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法,在视觉因果发现任务上显著超越了GPT-4等现有模型。
POLARIS:用于扩散模型中鲁棒自适应反演的投影正交最小二乘法 / POLARIS: Projection-Orthogonal Least Squares for Robust and Adaptive Inversion in Diffusion Models
这篇论文发现扩散模型在图像编辑中效果变差的关键原因在于噪声近似误差的累积,并提出了一种名为POLARIS的简单高效方法,通过动态调整一个关键参数来从根源上最小化每一步的误差,从而显著提升图像重建和后续编辑任务的质量。
基于3D点轨迹的生成式视频运动编辑 / Generative Video Motion Editing with 3D Point Tracks
这篇论文提出了一种新的视频编辑方法,通过利用3D点轨迹来精确控制视频中相机和物体的复杂运动,解决了现有方法难以保持场景一致性和处理精细动作的难题。
Glance:用1个样本加速扩散模型 / Glance: Accelerating Diffusion Models with 1 Sample
这篇论文提出了一种名为Glance的智能加速方法,它通过为扩散模型的不同生成阶段配备两个轻量级的LoRA适配器(一个用于慢速的语义阶段,一个用于快速的重构阶段),仅需1个样本、1小时即可完成训练,就能实现高达5倍的推理加速,同时保持良好的图像质量和泛化能力。