📄 论文总结
Phi:多模态大语言模型在推理时的偏好劫持 / Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
1️⃣ 一句话总结
这篇论文揭示了一种针对多模态大语言模型的新型安全风险,即攻击者可以通过精心优化的图像在模型推理时操控其输出偏好,使其生成带有偏见但看似合理的回答,且无需修改模型本身。
请先 登录 后再提交论文
Phi:多模态大语言模型在推理时的偏好劫持 / Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
这篇论文揭示了一种针对多模态大语言模型的新型安全风险,即攻击者可以通过精心优化的图像在模型推理时操控其输出偏好,使其生成带有偏见但看似合理的回答,且无需修改模型本身。
OmniWorld:用于4D世界建模的多领域多模态数据集 / OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
这篇论文提出了一个名为OmniWorld的大规模多领域多模态数据集,旨在解决4D世界建模领域高质量数据不足的问题,并通过实验证明该数据集能显著提升现有方法在4D重建和视频生成任务上的性能。
嵌入空间中的信息丢失:视觉语言模型中的信息损失研究 / Lost in Embeddings: Information Loss in Vision-Language Models
这篇论文发现视觉语言模型在将图像信息投影到语言嵌入空间时会丢失大量关键信息,导致模型在图像检索和视觉问答任务中表现变差,并提出了两种方法来量化和定位这种信息损失。
PersonaX:包含LLM推断行为特征的多模态数据集 / PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
这篇论文提出了一个名为PersonaX的多模态数据集,它结合了大型语言模型推断的行为特征、面部图像和传记信息,为跨模态行为分析和因果推理研究提供了基础。
稳定部件扩散4D:多视角RGB与运动部件视频生成 / Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
这篇论文提出了一个名为SP4D的框架,能够从单目输入生成配对的RGB视频和运动部件分割视频,这些部件与物体关节运动对齐且跨视角和时间一致,为下游动画和运动任务提供了可直接使用的结构化输出。
精准着色:连接感知色彩空间与文本嵌入以改进扩散生成 / Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
这项研究提出了一种无需额外训练的方法,通过大语言模型解析文本中模糊的颜色描述,并在文本嵌入空间结合色彩空间关系进行指导,从而显著提升文本到图像生成模型在复杂颜色渲染上的准确性。
评估多模态大语言模型中的认知谦逊 / Measuring Epistemic Humility in Multimodal Large Language Models
这篇论文提出了一个名为HumbleBench的新基准测试,专门用于评估多模态大语言模型在遇到图像与问题选项不匹配时,能否主动拒绝回答而非产生幻觉错误,从而更真实地衡量模型在安全关键场景下的可靠性。
Kling-Avatar:基于多模态指令的级联长时长虚拟人动画合成 / Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
这篇论文提出了一个名为Kling-Avatar的创新系统,它通过理解多模态指令(如语音和视觉信号)来生成语义连贯、表情生动且高保真的长时长虚拟人视频,显著提升了数字人在直播和视频博客等应用中的表现力。
OmniEVA:通过任务自适应三维基础与具身感知推理的通用具身规划器 / OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
这篇论文提出了一个名为OmniEVA的智能体规划系统,它通过动态选择三维信息融合和结合机器人物理限制进行推理,解决了现有模型在空间适应性和实际可行性方面的不足,从而在各种现实任务中实现了更通用和可靠的决策规划。
基于梯度注意力引导的双掩码协同框架实现鲁棒的文本行人检索 / Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
本研究通过构建大规模高质量行人图像文本数据集WebPerson,并提出一种自适应掩码噪声文本并增强细粒度语义学习的协同框架,显著提升了基于文本的行人检索性能。