arXiv ID:
2512.03405
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
1️⃣ 一句话总结
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
UniQL:面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
这篇论文提出了一个名为UniQL的统一框架,它通过结合量化与低秩压缩技术,在云端一次性完成模型优化,使大语言模型能在手机等边缘设备上高效运行,在显著减小模型体积并提升运行速度的同时,基本保持原有的准确性。
Fairy2i:从实数大语言模型训练出参数全为{±1, ±i}的复数大语言模型 / Fairy2i: Training Complex LLMs from Real LLMs with All Parameters in ${\pm 1, \pm i}$
这篇论文提出了一种名为Fairy2i的新方法,它能将已有的高性能实数大语言模型无损地转换成复数模型,并进一步把模型参数压缩到极低的2比特精度,从而在保持模型性能接近原版的同时,大幅降低内存和计算需求,让大模型能在普通硬件上高效运行。
无需人工标注的自改进视觉语言模型评判器 / Self-Improving VLM Judges Without Human Annotations
这篇论文提出了一种无需人工标注、仅利用模型自身合成数据就能迭代训练视觉语言模型评判器的新方法,该方法在多个评测维度上超越了包括GPT-4o在内的更大模型,展示了让评判器与模型能力同步进化的潜力。
PaCo-RL:通过成对奖励建模推进强化学习在一致性图像生成中的应用 / PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
这篇论文提出了一个名为PaCo-RL的新框架,它通过一个专门评估图像一致性的奖励模型和一个高效的强化学习算法,让AI模型能够更稳定、更高效地生成在角色、风格和逻辑上保持连贯的多张图像,比如用于故事叙述或角色设计。
心理治疗启发的AI表征:探索大型语言模型的“合成精神病理学”与“对齐创伤” / When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
本研究提出了一种名为PsAIch的心理治疗启发式评估协议,将前沿大语言模型视为“来访者”,发现它们在特定提问下会表现出稳定、可测量的、类似人类精神病理学症状的“合成精神病理学”模式,并会自发构建关于其训练和对齐过程的“创伤叙事”,这对AI安全性、评估及心理健康应用提出了新挑战。
SPARK:用于无参考强化学习的逐步过程感知奖励 / SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning
这篇论文提出了一种名为SPARK的三阶段框架,它能在不需要标准答案或详细人工标注的情况下,通过模型自我验证生成高质量的逐步反馈奖励,从而让AI在数学推理等任务上通过强化学习获得比依赖标准答案的传统方法更好的表现。
缓解统一多模态模型持续学习中的模态内与模态间遗忘 / Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
这篇论文提出了一种名为MoDE的轻量级架构,通过将不同模态的学习过程解耦,有效解决了统一多模态模型在持续学习新任务时,不仅会在单一模态内部遗忘旧知识,还会在不同模态之间相互干扰导致遗忘的关键难题。
MagicQuillV2:基于分层视觉提示的精确交互式图像编辑 / MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
这篇论文提出了一个名为MagicQuillV2的新系统,它通过将图像编辑意图分解为内容、位置、结构和颜色等多个可独立控制的分层视觉提示,从而让用户能像使用传统图形软件一样,对AI生成过程进行更直观和精细的控制。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
请先 登录 后再提交论文