arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
UI Remix:通过交互式示例检索与重组支持用户界面设计 / UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing
这篇论文介绍了一个名为UI Remix的交互式AI系统,它通过多模态检索增强生成技术,帮助非专业设计者轻松地搜索、选择和重组移动界面设计示例,从而提升他们的设计效率、探索能力和对设计方案的信心。
AVMeme测试:一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
这篇论文提出了一个名为AVMeme Exam的基准测试,通过评估AI模型对网络流行音视频(如音乐、音效)在文化背景下的理解能力,发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。
AR-Omni:一个用于任意模态间生成任务的统一自回归模型 / AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
这篇论文提出了一个名为AR-Omni的统一模型,它仅用一个自回归解码器就能同时处理文本、图像和语音的生成任务,并通过创新的训练和推理方法解决了多模态统一建模中的关键难题,实现了高质量且实时的多模态生成。
PingPong:多轮语码转换对话的自然基准 / PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues
这篇论文提出了一个名为PingPong的新基准数据集,它包含了真实、多线程的多语言混合对话,用于评估和改进自然语言处理模型在处理复杂、自然的语码转换对话方面的能力。
C-RADIOv4 技术报告 / C-RADIOv4 (Tech Report)
这篇技术报告介绍了C-RADIOv4模型,它通过整合多个先进教师模型的优势,在保持计算量不变的前提下,显著提升了多种视觉任务(如图像理解、分割)的性能,并新增了支持任意分辨率、高效高分辨率处理等实用功能。
SkyReels-V3 技术报告 / SkyReels-V3 Technique Report
这篇论文介绍了SkyReels-V3视频生成模型,它在一个统一的架构内实现了三种核心功能:根据参考图片生成连贯视频、无缝延长现有视频以及根据音频生成口型同步的虚拟人像视频,其综合性能接近顶尖的闭源系统。
VisGym:用于多模态智能体的多样化、可定制、可扩展的环境套件 / VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
这篇论文提出了一个名为VisGym的多样化测试平台,用于评估和训练视觉语言模型在复杂交互任务中的表现,结果发现当前顶尖模型在需要多步骤视觉决策的任务上表现不佳,并指出了其具体缺陷和改进方向。
IVRA:通过基于提示的无训练引导改进机器人动作策略中的视觉-标记关系 / IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
这篇论文提出了一种名为IVRA的轻量级、无需额外训练的方法,它通过巧妙利用视觉模型中已有的空间关联信息来增强机器人对视觉场景的几何理解,从而在多种机器人操作任务上稳定提升了动作策略的准确性。
Memory-V2V:为视频到视频扩散模型增加记忆模块 / Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
这篇论文提出了一个名为Memory-V2V的新框架,它通过给现有的视频编辑AI模型增加一个‘记忆库’,让用户在多次、反复编辑同一个视频时,能自动参考之前的编辑结果,从而保持视频整体风格和内容的一致性,同时还提高了处理速度。
请先 登录 后再提交论文