arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
UI Remix:通过交互式示例检索与重组支持用户界面设计 / UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing
这篇论文介绍了一个名为UI Remix的交互式AI系统,它通过多模态检索增强生成技术,帮助非专业设计者轻松地搜索、选择和重组移动界面设计示例,从而提升他们的设计效率、探索能力和对设计方案的信心。
Sentipolis:用于社会模拟的情感感知智能体 / Sentipolis: Emotion-Aware Agents for Social Simulations
这项研究提出了一个名为Sentipolis的新框架,它通过让AI智能体拥有持续的情感状态和记忆,解决了现有社会模拟中情感短暂、缺乏长期一致性的问题,从而能更真实地模拟人际关系的变化和形成。
多模态检索增强生成(mRAG)隐私的系统性评估 / A Systemic Evaluation of Multimodal RAG Privacy
这篇论文通过实证研究发现,用于视觉任务的多模态检索增强生成(mRAG)系统在推理过程中存在泄露其背后私有数据集信息的风险,强调了为其开发隐私保护机制的必要性。
Athanor:通过自然语言为静态可视化图表创作基于动作修改的交互功能 / Athanor: Authoring Action Modification-based Interactions on Static Visualizations via Natural Language
这篇论文提出了一种名为Athanor的新方法,它利用多模态大语言模型和自然语言指令,让用户无需编程就能轻松地将现有的静态数据图表(如图片或截图)转换成可交互的图表。
AVMeme测试:一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
这篇论文提出了一个名为AVMeme Exam的基准测试,通过评估AI模型对网络流行音视频(如音乐、音效)在文化背景下的理解能力,发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。
AR-Omni:一个用于任意模态间生成任务的统一自回归模型 / AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
这篇论文提出了一个名为AR-Omni的统一模型,它仅用一个自回归解码器就能同时处理文本、图像和语音的生成任务,并通过创新的训练和推理方法解决了多模态统一建模中的关键难题,实现了高质量且实时的多模态生成。
TEXTS-Diff:面向真实世界文本图像超分辨率的文本感知扩散模型 / TEXTS-Diff: TEXTS-Aware Diffusion Model for Real-World Text Image Super-Resolution
本文提出了一个名为TEXTS-Diff的文本感知扩散模型,并构建了一个大规模真实世界文本图像数据集Real-Texts,旨在同时高质量地恢复图像背景和模糊、扭曲的文字,显著提升了复杂场景下文本图像超分辨率的整体视觉效果和文字可读性。
PingPong:多轮语码转换对话的自然基准 / PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues
这篇论文提出了一个名为PingPong的新基准数据集,它包含了真实、多线程的多语言混合对话,用于评估和改进自然语言处理模型在处理复杂、自然的语码转换对话方面的能力。
C-RADIOv4 技术报告 / C-RADIOv4 (Tech Report)
这篇技术报告介绍了C-RADIOv4模型,它通过整合多个先进教师模型的优势,在保持计算量不变的前提下,显著提升了多种视觉任务(如图像理解、分割)的性能,并新增了支持任意分辨率、高效高分辨率处理等实用功能。
请先 登录 后再提交论文