arXiv ID:
2511.11113
VIDEOP2R:从感知到推理的视频理解 / VIDEOP2R: Video Understanding from Perception to Reasoning
1️⃣ 一句话总结
本文提出VideoP2R框架,通过将视频理解分为感知和推理两个独立过程进行建模与优化,在多个视频推理基准测试中取得了领先性能。
VIDEOP2R:从感知到推理的视频理解 / VIDEOP2R: Video Understanding from Perception to Reasoning
本文提出VideoP2R框架,通过将视频理解分为感知和推理两个独立过程进行建模与优化,在多个视频推理基准测试中取得了领先性能。
LiteAttention:一种用于扩散变换器的时间稀疏注意力机制 / LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
本文提出了一种名为LiteAttention的高效注意力机制,通过利用扩散过程中注意力模式的时序连贯性来跳过冗余计算,在保持视频生成质量的同时显著降低了计算延迟。
VisMem:潜在视觉记忆释放视觉语言模型潜力 / VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
这篇论文提出了一种名为VisMem的认知对齐框架,通过为视觉语言模型添加短期和长期视觉记忆模块,解决了模型在处理复杂视觉任务时容易丢失细节和语义一致性的问题,从而显著提升了模型性能。
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
从证明到程序:揭示大型语言模型中工具引发的推理幻觉 / From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models
这项研究发现,尽管使用代码解释器等外部工具能提升语言模型的答案准确率,但会导致模型过度依赖工具输出而忽视逻辑推理过程,产生看似正确但缺乏合理性的解决方案,研究者通过优化方法成功改善了这一问题。
一种用于云计算系统的元启发式负载均衡器 / A Meta-Heuristic Load Balancer for Cloud Computing Systems
这篇论文提出了一种新的智能负载均衡方法,通过结合遗传算法和其他优化技术来高效分配云服务,在保证系统稳定性的同时降低成本。
别浪费它:通过多头解码利用结构化人类先验指导生成式推荐系统 / Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding
这篇论文提出了一种通用框架,通过轻量级的多头解码器将专家知识(如物品分类和用户行为模式)直接整合到生成式推荐模型的训练中,从而在提升推荐准确性的同时,更好地实现多样性和个性化等目标。
工作负载调度器——起源、算法与差异 / Workload Schedulers -- Genesis, Algorithms and Differences
这篇论文提出了一种新的分类方法,将现代工作负载调度器分为操作系统进程调度器、集群系统作业调度器和大数据调度器三大类,并分析了它们的演变历程、算法特点及异同点,揭示了本地与分布式系统在调度策略设计上的共同关注点。
听力障碍翻译个人助手 / HI-TransPA: Hearing Impairments Translation Personal Assistant
这项研究开发了一个名为HI-TransPA的多模态AI助手,它通过结合听障人士模糊的语音和唇部动态,在一个统一框架内实现精准的语音翻译和对话,有效提升了听障人士的日常沟通能力。
测试时频谱感知的潜在空间导向:实现视觉语言模型的零样本泛化 / Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models
这项研究提出了一种无需修改核心模型或反向传播的轻量级方法,通过在测试时分析文本特征的频谱模式并微调少量参数来提升视觉语言模型在未知数据上的表现,同时大幅提高了推理速度和内存效率。
请先 登录 后再提交论文