📄 论文总结
UniLumos:基于物理可信反馈的快速统一图像与视频重光照方法 / UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
1️⃣ 一句话总结
本研究提出了一种名为UniLumos的统一图像与视频重光照框架,它通过引入基于RGB空间的几何反馈机制来提升光照效果的物理真实性,并在保持高质量输出的同时实现了20倍的加速。
请先 登录 后再提交论文
UniLumos:基于物理可信反馈的快速统一图像与视频重光照方法 / UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
本研究提出了一种名为UniLumos的统一图像与视频重光照框架,它通过引入基于RGB空间的几何反馈机制来提升光照效果的物理真实性,并在保持高质量输出的同时实现了20倍的加速。
上下文投票:将视觉语言模型转化为零样本排序融合器 / Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
这项研究提出了一种无需训练的通用框架,通过将检索结果的内容和元数据整合到视觉语言模型的提示中,使其能够像人类一样进行推理,从而在零样本条件下显著提升跨模态视频检索的准确率。
环形巴士:一个用于评估视觉语言模型理解画谜能力的大型多样化多模态基准 / $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
这篇论文提出了一个包含1333个英文画谜的大型多样化评测基准,并设计了一种结合描述与代码推理的新方法,显著提升了各类视觉语言模型在理解这类需要综合认知能力的谜题上的表现。
区分对待运动组件推动深度与自运动联合学习演进 / Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
这项研究提出了一种新方法,通过分别处理相机运动中的不同分量并利用几何约束,显著提升了无监督深度估计和自运动学习的准确性和鲁棒性。
UniREditBench:一个统一的基于推理的图像编辑基准 / UniREditBench: A Unified Reasoning-based Image Editing Benchmark
这篇论文提出了一个名为UniREditBench的综合性基准测试,用于系统评估图像编辑模型在需要复杂推理的各种场景下的表现,并通过引入多模态双参考评估方法和构建大规模合成数据集,显著提升了评估的准确性和模型的性能。
Kinematify:高自由度铰接物体的开放词汇合成 / Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
这篇论文提出了一个名为Kinematify的自动化框架,能够直接从任意RGB图像或文本描述中合成高自由度铰接物体的运动学模型,解决了从静态几何推断复杂关节结构和参数的关键难题。
RefVTON:基于额外非配对视觉参考的人对人虚拟试穿 / RefVTON: person-to-person Try on with Additional Unpaired Visual Reference
这篇论文提出了一个名为RefTON的虚拟试穿系统,它通过引入不同人穿着目标服装的参考图片来提升试穿效果的真实感和细节还原,同时简化了传统方法中复杂的输入要求,实现了高效且高质量的人对人服装替换。
NaviTrace:评估视觉语言模型的具身导航能力 / NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
这篇论文提出了一个名为NaviTrace的新型评测基准,通过模拟不同机器人形态在1000多个场景中的导航轨迹,系统评估了八种先进视觉语言模型的导航能力,发现它们在空间定位和目标识别方面仍显著落后于人类水平。
视觉语言模型能否胜任测量任务?用MeasureBench基准测试视觉测量读数能力 / Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
这项研究提出了一个名为MeasureBench的视觉测量读数基准测试,发现当前最先进的视觉语言模型在读取仪表数据时普遍存在指针定位困难,导致数值误差较大,揭示了模型在精细空间感知能力上的根本局限。
OmniX:从统一的全景生成与感知到图形就绪的3D场景 / OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes
这篇论文提出了一个名为OmniX的统一框架,通过复用2D生成模型的能力,实现了全景图像的感知、生成与补全,并能创建出可直接用于物理渲染、光照模拟等高级图形处理的3D场景。