arXiv ID:
2509.14033
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
1️⃣ 一句话总结
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model
这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型,用户只需在单张图片或3D空间中简单标注,就能实现跨视角的精确空间推理和测量,无需复杂标注即可应用于真实场景视频分析。
Phi:多模态大语言模型在推理时的偏好劫持 / Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
这篇论文揭示了一种针对多模态大语言模型的新型安全风险,即攻击者可以通过精心优化的图像在模型推理时操控其输出偏好,使其生成带有偏见但看似合理的回答,且无需修改模型本身。
LazyDrag:通过显式对应关系在多模态扩散变换器中实现稳定的基于拖拽的编辑 / LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
这篇论文提出了一种名为LazyDrag的新方法,通过生成明确的对应关系图来替代传统依赖隐式点匹配的方式,从而实现了无需测试时优化的稳定图像拖拽编辑,显著提升了编辑精度和生成质量。
OmniWorld:用于4D世界建模的多领域多模态数据集 / OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
这篇论文提出了一个名为OmniWorld的大规模多领域多模态数据集,旨在解决4D世界建模领域高质量数据不足的问题,并通过实验证明该数据集能显著提升现有方法在4D重建和视频生成任务上的性能。
再看一眼,慢思考:增强视觉语言模型中的视觉反思能力 / Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
这篇论文提出了一种名为Reflection-V的新视觉推理模型,通过构建视觉中心推理数据和设计基于视觉注意力的强化学习奖励机制,有效增强了模型在推理过程中持续关注和利用视觉信息的能力,从而显著提升了多个视觉推理任务的性能。
嵌入空间中的信息丢失:视觉语言模型中的信息损失研究 / Lost in Embeddings: Information Loss in Vision-Language Models
这篇论文发现视觉语言模型在将图像信息投影到语言嵌入空间时会丢失大量关键信息,导致模型在图像检索和视觉问答任务中表现变差,并提出了两种方法来量化和定位这种信息损失。
PersonaX:包含LLM推断行为特征的多模态数据集 / PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
这篇论文提出了一个名为PersonaX的多模态数据集,它结合了大型语言模型推断的行为特征、面部图像和传记信息,为跨模态行为分析和因果推理研究提供了基础。
稳定部件扩散4D:多视角RGB与运动部件视频生成 / Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
这篇论文提出了一个名为SP4D的框架,能够从单目输入生成配对的RGB视频和运动部件分割视频,这些部件与物体关节运动对齐且跨视角和时间一致,为下游动画和运动任务提供了可直接使用的结构化输出。
精准着色:连接感知色彩空间与文本嵌入以改进扩散生成 / Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
这项研究提出了一种无需额外训练的方法,通过大语言模型解析文本中模糊的颜色描述,并在文本嵌入空间结合色彩空间关系进行指导,从而显著提升文本到图像生成模型在复杂颜色渲染上的准确性。
请先 登录 后再提交论文