arXiv ID:
2511.11113
VIDEOP2R:从感知到推理的视频理解 / VIDEOP2R: Video Understanding from Perception to Reasoning
1️⃣ 一句话总结
本文提出VideoP2R框架,通过将视频理解分为感知和推理两个独立过程进行建模与优化,在多个视频推理基准测试中取得了领先性能。
VIDEOP2R:从感知到推理的视频理解 / VIDEOP2R: Video Understanding from Perception to Reasoning
本文提出VideoP2R框架,通过将视频理解分为感知和推理两个独立过程进行建模与优化,在多个视频推理基准测试中取得了领先性能。
LiteAttention:一种用于扩散变换器的时间稀疏注意力机制 / LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
本文提出了一种名为LiteAttention的高效注意力机制,通过利用扩散过程中注意力模式的时序连贯性来跳过冗余计算,在保持视频生成质量的同时显著降低了计算延迟。
VisMem:潜在视觉记忆释放视觉语言模型潜力 / VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
这篇论文提出了一种名为VisMem的认知对齐框架,通过为视觉语言模型添加短期和长期视觉记忆模块,解决了模型在处理复杂视觉任务时容易丢失细节和语义一致性的问题,从而显著提升了模型性能。
别浪费它:通过多头解码利用结构化人类先验指导生成式推荐系统 / Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding
这篇论文提出了一种通用框架,通过轻量级的多头解码器将专家知识(如物品分类和用户行为模式)直接整合到生成式推荐模型的训练中,从而在提升推荐准确性的同时,更好地实现多样性和个性化等目标。
MMaDA-并行:用于思维感知编辑与生成的多模态大扩散语言模型 / MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
这项研究提出了一种并行多模态扩散框架,通过让文本和图像在生成过程中持续双向交互,有效解决了传统序列模型因错误传播导致的图文不一致问题,显著提升了思维感知图像合成的质量。
RF-DETR:面向实时检测Transformer的神经架构搜索 / RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
这篇论文提出了RF-DETR,一种通过神经架构搜索自动寻找最佳速度和精度平衡的轻量级目标检测模型,在多个数据集上显著超越了现有实时检测方法的性能。
LoopTool:为鲁棒的大语言模型工具调用实现数据与训练的闭环 / LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
这篇论文提出了一个名为LoopTool的自动化框架,通过将数据生成与模型训练紧密结合,不断诊断模型弱点、修正标注错误并针对性生成新数据,从而显著提升了大型语言模型使用外部工具的能力。
DoPE:去噪旋转位置编码 / DoPE: Denoising Rotary Position Embedding
这篇论文提出了一种无需训练的去噪方法DoPE,通过检测并修正位置编码中的异常频率成分,有效解决了Transformer模型在处理长文本时注意力失衡的问题,显著提升了模型在超长上下文中的检索准确性和推理稳定性。
TiDAR:扩散思考,自回归对话 / TiDAR: Think in Diffusion, Talk in Autoregression
这篇论文提出了一种名为TiDAR的新型语言模型架构,它通过在单个前向传播中结合扩散模型的并行生成能力和自回归模型的高质量输出,首次实现了与自回归模型相当的质量,同时将生成速度提升了4.71到5.91倍。
未走之路:RLVR可证明地偏离主方向学习 / The Path Not Taken: RLVR Provably Learns Off the Principals
这篇论文揭示了强化学习与可验证奖励(RLVR)方法通过避开神经网络权重空间的主方向,在保持模型频谱稳定的微小参数更新中实现性能提升,其优化机制与传统的监督微调(SFT)有本质不同。
请先 登录 后再提交论文