arXiv最新AI论文速览速学

🔍

标签: #world modeling ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: World Guidance: World Modeling in Condition Space for Action Generation 02-28

arXiv ID: 2602.22010

arXiv 提交日期: 2026-02-25

robotics multi-modal model training world modeling vision-language-action action generation future prediction human manipulation

世界引导：在条件空间中为动作生成进行世界建模 / World Guidance: World Modeling in Condition Space for Action Generation

1️⃣ 一句话总结

这篇论文提出了一个名为‘世界引导’的新框架，它通过将预测的未来场景压缩成简洁的‘条件’，来更有效地指导AI模型生成精确的动作，从而在机器人和智能体控制任务上取得了比直接预测未来更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04212

arXiv 提交日期: 2026-02-04

llm model evaluation theory in-context learning representation learning adaptation world modeling next-token prediction

语言模型难以运用在上下文中学习到的表征 / Language Models Struggle to Use Representations Learned In-Context

1️⃣ 一句话总结

这项研究发现，尽管大型语言模型能在上下文中学习并编码新的概念或模式，但它们很难灵活地运用这些新学到的知识来完成后续任务，这揭示了当前模型在动态适应和知识迁移能力上的一个关键局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21998

arXiv 提交日期: 2026-01-29

robotics multi-modal model training world modeling vision-language pre-training autoregressive diffusion robot control manipulation

用于机器人控制的因果世界建模 / Causal World Modeling for Robot Control

1️⃣ 一句话总结

这篇论文提出了一种名为LingBot-VA的新型机器人学习框架，它通过结合视频世界模型和视觉语言预训练，让机器人能够理解动作与视觉变化之间的因果关系，从而自主预测未来画面并高效执行复杂的长周期操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20615

arXiv 提交日期: 2025-12-23

agents video generation multi-modal interactive video avatars world modeling long-horizon planning benchmark closed-loop reasoning

从被动动画到主动智能：通过在线推理与认知架构实现长视野交互式视频化身 / Active Intelligence in Video Avatars via Closed-loop World Modeling

1️⃣ 一句话总结

本文提出了首个旨在为视频化身赋予主动智能的ORCA框架，通过闭环OTAR推理循环和分层双系统架构，解决了现有方法在随机生成环境中缺乏自主长期目标规划能力的问题，并为此类任务建立了首个标准化评估基准L-IVA。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14014

arXiv 提交日期: 2025-12-16

agents multi-modal benchmark world modeling gui agents vision-language models mobile agents semantic state transitions

MobileWorldBench：面向移动智能体的语义世界建模 / MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MobileWorldBench的新基准和一个大规模数据集MobileWorld，旨在通过自然语言而非像素预测来构建图形用户界面智能体的语义世界模型，并展示了该模型能有效提升移动智能体执行任务的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20937

arXiv 提交日期: 2025-11-26

benchmark agents model evaluation embodied cognition vision-language models world modeling egocentric interaction visual question answering

ENACT：通过第一人称交互的世界建模评估具身认知 / ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

1️⃣ 一句话总结

这篇论文提出了一个名为ENACT的评估基准，通过视觉问答形式测试人工智能模型是否具备类似人类的具身认知能力，即通过身体与环境的交互来理解和预测世界变化，实验发现当前先进模型与人类表现存在明显差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.04670

arXiv 提交日期: 2025-11-06

computer vision multi-modal model evaluation spatial cognition video understanding world modeling benchmark predictive sensing

寒武纪-S：迈向视频空间超感知 / Cambrian-S: Towards Spatial Supersensing in Video

1️⃣ 一句话总结

这篇论文提出了一种名为‘空间超感知’的新AI范式，强调模型不仅要识别视频内容，还需具备持续记忆、三维空间推理和预测建模能力，并通过新基准测试证明仅靠扩大数据规模无法实现这一目标，而引入预测机制能显著提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08558

arXiv 提交日期: 2025-10-09

agents model training machine learning early experience self-reflection world modeling reinforcement learning imitation learning

基于早期经验的智能体学习 / Agent Learning via Early Experience

1️⃣ 一句话总结

这篇论文提出了一种名为‘早期经验’的新学习范式，让AI智能体通过自身在环境中的初步互动数据来学习，无需依赖奖励信号，从而有效提升了任务执行能力和对新场景的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.22010

1️⃣ 一句话总结

arXiv ID: 2602.04212

1️⃣ 一句话总结

arXiv ID: 2601.21998

1️⃣ 一句话总结

arXiv ID: 2512.20615

1️⃣ 一句话总结

arXiv ID: 2512.14014

1️⃣ 一句话总结

arXiv ID: 2511.20937

1️⃣ 一句话总结

arXiv ID: 2511.04670

1️⃣ 一句话总结

arXiv ID: 2510.08558

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.22010 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04212 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21998 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20615 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14014 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20937 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.04670 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08558 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.22010

arXiv ID: 2602.04212

arXiv ID: 2601.21998

arXiv ID: 2512.20615

arXiv ID: 2512.14014

arXiv ID: 2511.20937

arXiv ID: 2511.04670

arXiv ID: 2510.08558