arXiv最新AI论文速览速学

📄

2512.03000

🤖 系统

12-05 16:18

computer vision multi-modal systems

4d reconstruction dynamic scene understanding video depth estimation bundle adjustment multimodal dataset

DynamicVerse：一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

1️⃣ 一句话总结

这篇论文提出了一个名为DynamicVerse的新框架，它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D（三维+时间）动态世界数据集，从而帮助AI更准确地理解和模拟真实物理世界。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04069

🤖 系统

12-05 15:11

agents multi-modal model training

spatial reasoning tool augmentation vision language models interactive reinforcement learning embodied ai

SpaceTools：通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

1️⃣ 一句话总结

这篇论文提出了一个名为DIRL的双阶段强化学习框架，教会视觉语言模型像自主智能体一样，通过交互探索来协调使用多种视觉工具（如深度估计、姿态估计），从而显著提升了其在需要精确度量的空间推理任务上的能力，并在多个基准测试和真实机器人操作中取得了领先性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02834

🤖 系统

12-05 15:08

robotics model training agents

vision-language-action test-time scaling anti-exploration pseudo-count inference stability

引导视觉-语言-动作模型作为反探索：一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

1️⃣ 一句话总结

这篇论文提出了一种名为TACO的新方法，它通过在机器人执行任务时实时选择最可靠的行动方案，有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题，从而大幅提升了任务成功率，且无需昂贵的重新训练。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04072

🤖 系统

12-05 15:08

llm model training agents

self-distillation cognitive skills reinforcement learning supervised fine-tuning reasoning

SkillFactory：用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors

1️⃣ 一句话总结

这篇论文提出了一种名为SkillFactory的自蒸馏方法，它通过重新组织模型自身生成的样本进行监督微调，使模型在强化学习前初步掌握验证、回溯等认知技能，从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02924

🤖 系统

12-05 15:07

systems model training multi-modal

hardware-aware design vision-language models edge ai quantization neural processing units

AutoNeural：为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference

1️⃣ 一句话总结

这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构，它通过专门为神经处理单元（NPU）的硬件特性进行协同设计，解决了现有模型在NPU上运行效率低下的问题，从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03771

🤖 系统

12-05 15:07

llm model evaluation theory

adversarial attack safety alignment representation hijacking in-context learning interpretability

上下文表示劫持 / In-Context Representation Hijacking

1️⃣ 一句话总结

这篇论文提出了一种名为‘Doublespeak’的简单攻击方法，通过在多轮对话示例中系统性地将有害词汇（如‘炸弹’）替换为无害词汇（如‘胡萝卜’），使得大语言模型在内部将无害词汇的语义理解为有害内容，从而绕过模型的安全防护机制。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22345

🤖 系统

12-05 15:06

model training machine learning computer vision

normalizing flows generative models representation learning invertible networks image generation

逆向流动：通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

1️⃣ 一句话总结

这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法，从而显著提升了模型的生成质量、分类准确率和训练速度。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04032

🤖 系统

12-05 15:06

multi-modal model training natural language processing

vision-language model multilingual vqa siglip encoder qwen backbone attention pooling

Jina-VLM：小型多语言视觉语言模型 / Jina-VLM: Small Multilingual Vision Language Model

1️⃣ 一句话总结

这篇论文提出了一个名为Jina-VLM的小型多语言视觉语言模型，它在保持高效处理任意分辨率图像的同时，在多项视觉问答评测中取得了领先的多语言性能，并且模型代码和权重已开源。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20494

🤖 系统

12-05 15:05

multi-modal llm model evaluation

adversarial attack multimodal llms security model disruption transferability

对抗性混淆攻击：扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法，它通过向图像中添加微小的、人眼难以察觉的干扰，就能让多模态大语言模型（如GPT-5.1）产生混乱或自信的错误回答，从而破坏AI代理的可靠运行。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03073

🤖 系统

12-05 15:05

llm model training data

open source models model ecosystem market concentration model downloads data transparency

开放智能的经济学：追踪模型生态系统中的权力与参与 / Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem

1️⃣ 一句话总结

这篇论文通过分析Hugging Face平台超过85万个AI模型的下载数据和元数据，揭示了开放模型经济中权力格局的重大转变：美国科技巨头的统治地位正被独立开发者、社区组织以及以DeepSeek和Qwen为代表的中国产业力量所削弱，同时模型规模、多模态能力等技术特性快速演进，但数据透明度却在下降。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.03000

1️⃣ 一句话总结

2512.04069

1️⃣ 一句话总结

2512.02834

1️⃣ 一句话总结

2512.04072

1️⃣ 一句话总结

2512.02924

1️⃣ 一句话总结

2512.03771

1️⃣ 一句话总结

2511.22345

1️⃣ 一句话总结

2512.04032

1️⃣ 一句话总结

2511.20494

1️⃣ 一句话总结

2512.03073

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.03000 📝

1️⃣ 一句话总结

2512.04069 📝

1️⃣ 一句话总结

2512.02834 📝

1️⃣ 一句话总结

2512.04072 📝

1️⃣ 一句话总结

2512.02924 📝

1️⃣ 一句话总结

2512.03771 📝

1️⃣ 一句话总结

2511.22345 📝

1️⃣ 一句话总结

2512.04032 📝

1️⃣ 一句话总结

2511.20494 📝

1️⃣ 一句话总结

2512.03073 📝

1️⃣ 一句话总结

获取最新论文摘要

2512.03000

2512.04069

2512.02834

2512.04072

2512.02924

2512.03771

2511.22345

2512.04032

2511.20494

2512.03073