arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
一适应万:用于个性化大语言模型对齐的元奖励建模 / One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
这篇论文提出了一种名为‘元奖励建模’的新方法,通过元学习让奖励模型能够仅用少量用户反馈就快速学习并适应新用户的个性化偏好,从而更高效地实现大语言模型的个性化对齐。
UI Remix:通过交互式示例检索与重组支持用户界面设计 / UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing
这篇论文介绍了一个名为UI Remix的交互式AI系统,它通过多模态检索增强生成技术,帮助非专业设计者轻松地搜索、选择和重组移动界面设计示例,从而提升他们的设计效率、探索能力和对设计方案的信心。
达芬奇-开发:面向软件工程的智能体原生中期训练 / daVinci-Dev: Agent-native Mid-training for Software Engineering
这篇论文提出了一种名为‘智能体原生中期训练’的新方法,通过生成和利用模拟真实软件开发流程的训练数据,让大型语言模型能像人类程序员一样自主地理解、修改和测试复杂代码库,从而显著提升其在软件工程任务中的表现。
RIR-Mega-Speech:一个包含全面声学元数据且可复现评估的混响语音语料库 / RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
这篇论文创建了一个名为RIR-Mega-Speech的新型混响语音数据集,它通过为每个语音文件提供精确的声学参数(如混响时间)和完整的重建脚本,解决了以往研究中数据标注不清、结果难以复现的问题,旨在为语音处理领域提供一个透明、可验证的标准评估资源。
面向儿童-成人交互的端到端联合语音识别与说话人角色划分 / End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions
这篇论文提出了一种端到端的统一模型,能够同时完成语音识别和区分儿童与成人说话者的任务,相比传统串联式方法,它能减少错误传播,更高效、准确地生成带说话人标签的对话文本。
TensorLens:通过高阶注意力张量进行端到端的Transformer分析 / TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors
这篇论文提出了一个名为TensorLens的新方法,它用一个统一的高阶注意力张量来完整表示整个Transformer模型的计算过程,为模型可解释性研究提供了更强大的分析基础。
用于空间感知的掩码深度建模 / Masked Depth Modeling for Spatial Perception
这篇论文提出了一种名为LingBot-Depth的深度补全模型,它通过将深度传感器的不准确信号视为‘掩码’,并利用视觉上下文进行修复,从而在精度和覆盖范围上超越了顶级RGB-D相机,并提供了跨RGB和深度模态的对齐表征。
AVMeme测试:一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
这篇论文提出了一个名为AVMeme Exam的基准测试,通过评估AI模型对网络流行音视频(如音乐、音效)在文化背景下的理解能力,发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。
快速KVzip:通过门控KV淘汰实现高效准确的大语言模型推理 / Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
这篇论文提出了一种新的、基于门控机制的大语言模型推理加速方法,它能像智能管家一样自动识别并保留对话中最重要的信息,从而在几乎不影响模型回答质量的前提下,大幅减少计算负担,让大模型运行得更快、更省资源。
请先 登录 后再提交论文