arXiv ID:
2601.05239
全光视频生成 / Plenoptic Video Generation
1️⃣ 一句话总结
本文提出了一种名为PlenopticDreamer的新框架,它通过同步生成过程中的‘幻觉’内容来保持时空一致性,从而解决了现有方法在多视角视频生成中画面不连贯的难题,实现了高质量、可控且视角多样的视频重渲染。
全光视频生成 / Plenoptic Video Generation
本文提出了一种名为PlenopticDreamer的新框架,它通过同步生成过程中的‘幻觉’内容来保持时空一致性,从而解决了现有方法在多视角视频生成中画面不连贯的难题,实现了高质量、可控且视角多样的视频重渲染。
RoboVIP:通过视觉身份提示生成多视角视频以增强机器人操作 / RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
这篇论文提出了一种名为RoboVIP的新方法,它通过向图像生成模型提供示例图片作为视觉引导,来批量生成多视角、时间连贯的机器人操作视频数据,从而有效提升机器人策略模型的训练效果。
Re-Align:基于结构化推理引导的对齐方法,用于上下文图像生成与编辑 / Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing
这篇论文提出了一个名为Re-Align的统一框架,它通过一种结构化的推理方法,有效弥合了模型对图文指令的理解能力与图像生成能力之间的差距,从而在根据上下文(多图多文)提示进行图像生成和编辑的任务上取得了更好的效果。
FocusUI:通过保留位置信息的视觉标记选择实现高效的用户界面定位 / FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection
这篇论文提出了一种名为FocusUI的新方法,它通过智能地筛选出与用户指令最相关且位置连续的屏幕图像区域,在显著降低计算开销和内存占用的同时,依然能高精度地完成用户界面元素的定位任务。
用户未言明之事:不明确的查询限制了视觉语言模型 / What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
这篇论文指出,用户真实的图像提问往往信息不完整,这导致当前顶尖的视觉语言模型表现不佳,而将问题描述得更清晰能显著提升模型回答的准确性,揭示了现有模型评估与现实应用之间存在巨大差距。
E5-Omni:面向全模态嵌入的显式跨模态对齐方法 / e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
这篇论文提出了一种名为e5-omni的轻量级方法,通过校准相似度尺度、优化训练样本难度和统一嵌入空间统计特性,有效解决了现有全模态嵌入模型中跨模态比较不准确、训练效率低的问题,显著提升了文本、图像、音频、视频等多种不同类型数据在同一个空间中进行匹配的鲁棒性和效果。
超越二元偏好:通过解耦属性将扩散模型与细粒度标准对齐 / Beyond Binary Preference: Aligning Diffusion Models to Fine-grained Criteria by Decoupling Attributes
这篇论文提出了一种新的方法,通过将图像质量分解为树状结构的多个正负属性,并设计一个两阶段的对齐框架,使扩散模型能够依据复杂、细粒度的人类专家标准生成更高质量的图像,而不仅仅是依赖简单的二元偏好或单一奖励信号。
Gen3R:三维场景生成与前馈式重建的融合 / Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
这篇论文提出了一个名为Gen3R的新方法,它巧妙地将先进的3D重建模型和视频生成模型结合起来,能够根据一张或多张图片,一次性自动生成高质量的三维场景视频及其对应的几何结构(如深度图和点云),并在实验中取得了领先的效果。
编排动态物体的世界 / Choreographing a World of Dynamic Objects
这篇论文提出了一个名为CHORD的通用生成式方法,能够从普通2D视频中提取物体运动信息,从而自动生成和模拟各种动态物体与场景的复杂运动和交互,无需依赖大量特定类别的数据或人工规则。
Doc-PP:面向大型视觉语言模型的文档策略保持基准 / Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models
这篇论文提出了一个名为Doc-PP的新基准,用于测试大型视觉语言模型在处理包含敏感信息的复杂文档时能否遵守保密策略,并发现模型在需要跨模态推理时容易泄露信息,为此提出了一个分解、验证、聚合的框架来提升安全性。
请先 登录 后再提交论文