arXiv最新AI论文速览速学

📄

2512.04797

🤖 系统

12-05 14:58

agents multi-modal reinforcement learning

embodied ai generalist agent 3d virtual worlds open-ended learning instruction following

SIMA 2：适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds

1️⃣ 一句话总结

这篇论文介绍了一个名为SIMA 2的通用智能体，它能在各种3D虚拟世界中理解、推理并执行复杂任务，不仅能像人类一样与用户对话协作，还能通过自我学习掌握新技能，向创建能持续学习的通用人工智能迈出了重要一步。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03540

🤖 系统

12-04 15:09

computer vision multi-modal aigc

text-to-image diffusion models procedural generation visual consistency instruction following

CookAnything：一个灵活且一致的用于多步骤菜谱图像生成的框架 / CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为CookAnything的新框架，它能够根据任意长度的文字菜谱指令，智能地生成一系列既连贯又步骤分明的烹饪过程图片，解决了现有AI模型在生成多步骤、结构化图像序列时面临的灵活性和一致性难题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22625

🤖 系统

12-01 14:32

multi-modal model training computer vision

image editing reasoning multimodal llm diffusion models instruction following

REASONEDIT：迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

1️⃣ 一句话总结

这篇论文提出了一种名为ReasonEdit的新框架，通过解锁大型多模态语言模型的推理能力，让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误，从而显著提升了图像编辑的准确性和效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21087

🤖 系统

11-30 18:46

multi-modal agents model training

image editing multimodal reasoning instruction following iterative reasoning tool-use dataset

📄 论文总结

MIRA：用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing

1️⃣ 一句话总结

本文提出了一种名为MIRA的轻量级多模态推理智能体，它通过模拟人类多轮交互过程，逐步分析和执行图像编辑指令，显著提升了复杂指令下图像编辑的准确性和质量。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.16175

🤖 系统

11-30 17:56

multi-modal robotics model training

vision-language-action visual foresight diffusion transformer robot manipulation instruction following

📄 论文总结

Mantis：一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

1️⃣ 一句话总结

这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型，它通过解耦视觉预见模块来减轻主干网络的负担，从而在保持强大语言理解和推理能力的同时，显著提升了机器人任务执行的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.06945

🤖 系统

11-30 17:30

aigc text-to-video model training

text-to-image multimodal reasoning interleaved generation visual refinement instruction following

📄 论文总结

交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一种交错推理生成框架，通过交替进行文本思考和图像合成来逐步优化图像细节与质量，显著提升了文本到图像生成的准确性和视觉效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.04292

🤖 系统

11-30 17:28

llm model evaluation benchmark

instruction following cognitive inertia counter-intuitive ability adversarial evaluation alignment

📄 论文总结

逆向IFEval：大语言模型能否忘记顽固的训练惯例以遵循真实指令？ / Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

1️⃣ 一句话总结

这篇论文提出了一个名为逆向IFEval的新基准测试，用于评估大语言模型在遇到与训练模式相冲突的反常指令时，能否克服固有偏见并正确执行任务，从而揭示其在非常规场景下的适应能力不足问题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.04797

1️⃣ 一句话总结

2512.03540

1️⃣ 一句话总结

2511.22625

1️⃣ 一句话总结

2511.21087

📄 论文总结

1️⃣ 一句话总结

2511.16175

📄 论文总结

1️⃣ 一句话总结

2509.06945

📄 论文总结

1️⃣ 一句话总结

2509.04292

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.04797 📝

1️⃣ 一句话总结

2512.03540 📝

1️⃣ 一句话总结

2511.22625 📝

1️⃣ 一句话总结

2511.21087 📝

📄 论文总结

1️⃣ 一句话总结

2511.16175 📝

📄 论文总结

1️⃣ 一句话总结

2509.06945 📝

📄 论文总结

1️⃣ 一句话总结

2509.04292 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.04797

2512.03540

2511.22625

2511.21087

2511.16175

2509.06945

2509.04292