RELIC:具备长时记忆的交互式视频世界模型 / RELIC: Interactive Video World Model with Long-Horizon Memory
1️⃣ 一句话总结
这篇论文提出了一个名为RELIC的交互式视频生成模型,它通过一种新颖的压缩记忆机制,能够实时、长时地根据用户指令生成具有空间一致性的动态场景,解决了以往模型难以兼顾实时性、长时记忆和精确控制三大挑战的问题。
请先 登录 后再提交论文
RELIC:具备长时记忆的交互式视频世界模型 / RELIC: Interactive Video World Model with Long-Horizon Memory
这篇论文提出了一个名为RELIC的交互式视频生成模型,它通过一种新颖的压缩记忆机制,能够实时、长时地根据用户指令生成具有空间一致性的动态场景,解决了以往模型难以兼顾实时性、长时记忆和精确控制三大挑战的问题。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
像苏格拉底一样提问:苏格拉底助手帮助视觉语言模型理解遥感图像 / Asking like Socrates: Socrates helps VLMs understand remote sensing images
这篇论文针对视觉语言模型在分析遥感图像时存在的‘伪推理’问题,提出了一种名为RS-EoT的新方法,它通过模拟苏格拉底式的多轮问答和自我检查,引导模型逐步寻找视觉证据,从而实现了更准确、基于真实图像内容的推理。
OpenREAD:基于LLM作为评判者的强化开放式推理端到端自动驾驶 / OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic
这篇论文提出了一个名为OpenREAD的端到端自动驾驶框架,它通过使用大型语言模型作为评判者来量化开放式问题的推理质量,并利用强化学习对整个系统进行联合优化,从而在推理和规划任务上取得了领先的性能。
基于指令-策略协同进化的智能体策略优化 / Agentic Policy Optimization via Instruction-Policy Co-Evolution
这篇论文提出了一个名为INSPO的新框架,它通过让指导AI智能体行动的指令与智能体自身的策略在训练过程中共同进化,从而自动发现更优的指令,显著提升了智能体在复杂任务(如多轮检索和推理)中的表现。
GUI探索实验室:通过多轮强化学习增强智能体在屏幕间的导航能力 / GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
这篇论文提出了一个名为GUI探索实验室的模拟环境引擎,用于研究和训练能在复杂图形界面中导航的智能体,并通过实验发现,结合监督微调、单轮强化学习和多轮强化学习的训练方法,能有效提升智能体在未知场景下的探索与导航能力。
DeepSeek-V3.2:推动开源大语言模型的前沿 / DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
这篇论文介绍了DeepSeek-V3.2模型,它通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成流程,在保持高计算效率的同时,实现了媲美顶尖闭源模型的强大推理和智能体能力。
基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。
MG-Nav:基于稀疏空间记忆的双尺度视觉导航 / MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory
这篇论文提出了一个名为MG-Nav的双尺度视觉导航框架,它通过一个紧凑的稀疏空间记忆图来统一全局路径规划和局部避障控制,无需针对特定场景进行训练,就能在陌生环境中实现高效、鲁棒的导航。
WorldMM:用于长视频推理的动态多模态记忆代理 / WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
这篇论文提出了一个名为WorldMM的新型智能系统,它通过构建并灵活调用包含文字、视觉和概念在内的多种记忆,有效解决了现有视频AI模型难以理解和回答长达数小时视频内容的问题,在多个测试中表现显著优于之前最好的方法。