arXiv ID:
2511.19757
理解语言意味着什么? / What does it mean to understand language?
1️⃣ 一句话总结
这篇论文提出,真正的语言理解不仅仅是分析文字表面意思,而是需要大脑将语言信息传递给负责感知、运动和记忆的其他脑区,从而构建出丰富的心理模型。
理解语言意味着什么? / What does it mean to understand language?
这篇论文提出,真正的语言理解不仅仅是分析文字表面意思,而是需要大脑将语言信息传递给负责感知、运动和记忆的其他脑区,从而构建出丰富的心理模型。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
动作分块中的混合视野策略 / Mixture of Horizons in Action Chunking
这篇论文提出了一种名为‘混合视野’的新策略,通过让机器人同时学习长远的全局规划和精细的局部控制,解决了现有视觉-语言-动作模型在复杂任务中难以兼顾长期目标与短期精准度的核心矛盾,从而显著提升了机器人的操作性能和效率。
一起烹饪和清洁:教授具身智能体并行执行任务 / Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
这篇论文提出了一个结合语言理解、三维空间定位和效率优化的新任务ORS3D,并构建了大规模数据集ORS3D-60K,同时开发了GRANT模型来帮助具身智能体通过并行执行子任务(如一边运行微波炉一边清洁水槽)来最小化总任务完成时间。
UniGame:统一多模态模型的自对抗后训练框架 / UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
本文提出了UniGame,首个针对统一多模态模型理解与生成路径间结构不一致问题的自对抗后训练框架,通过让生成分支主动挑战理解分支的脆弱性,显著提升模型一致性和鲁棒性。
DiffSeg30k:一个用于局部AIGC检测的多轮扩散编辑基准数据集 / DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
这篇论文提出了一个包含3万张扩散编辑图像的数据集DiffSeg30k,将AI生成内容检测从简单的图像分类提升到像素级定位,帮助更精确地识别和定位被AI修改的图像区域。
Nemotron-Flash:迈向延迟最优的混合小型语言模型 / Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
这篇论文提出了一种名为Nemotron-Flash的新型混合小型语言模型,它通过优化模型深度与宽度的比例、选择高效的运算模块以及改进训练方法,在保证精度的同时,显著降低了模型在实际设备上的运行延迟并提高了处理速度。
MagicWorld:基于几何驱动的交互式视频世界探索 / MagicWorld: Interactive Geometry-driven Video World Exploration
这篇论文提出了MagicWorld模型,通过引入3D几何约束和历史检索机制,解决了现有交互式视频生成方法在视角变化下结构不稳定和多次交互中容易遗忘历史信息的问题,显著提升了生成场景的稳定性和连续性。
DiP:在像素空间中驯服扩散模型 / DiP: Taming Diffusion Models in Pixel Space
这篇论文提出了一种名为DiP的新型高效像素空间扩散模型框架,它通过将图像生成过程分解为全局结构构建和局部细节修复两个协同阶段,在无需依赖压缩编码器的情况下,实现了与潜在扩散模型相当的生成质量和计算效率,显著提升了高分辨率图像合成的速度。
Yo'City:通过自我批判扩展实现个性化和无边界的3D逼真城市场景生成 / Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
Yo'City是一个创新的智能框架,它利用大型模型的推理能力,通过分层规划和迭代优化,让用户能够生成无限扩展且高度个性化的逼真3D城市场景,并在多个评估维度上超越了现有技术。
请先 登录 后再提交论文