arXiv最新AI论文速览速学

🔍

标签: #end-to-end ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: JEDI: Joint Embedding Diffusion World Model for Online Model-Based Reinforcement Learning 05-18

arXiv ID: 2605.13013

arXiv 提交日期: 2026-05-13

reinforcement learning machine learning diffusion world model joint embedding model-based rl latent space end-to-end

JEDI：面向在线基于模型强化学习的联合嵌入扩散世界模型 / JEDI: Joint Embedding Diffusion World Model for Online Model-Based Reinforcement Learning

1️⃣ 一句话总结

本文提出JEDI，一种端到端训练的潜在扩散世界模型，通过将扩散去噪损失与JEPA预测性表征学习框架结合，在在线强化学习中既大幅降低了计算成本（显存减少43%、采样速度提升3倍以上），又在Atari100k任务上达到与像素级扩散模型相当甚至更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14851

arXiv 提交日期: 2026-03-16

multi-modal agents systems autonomous driving vision-language-action mixture-of-transformers end-to-end asynchronous inference

AutoMoT：一种用于端到端自动驾驶的、具有异步混合Transformer的统一视觉-语言-动作模型 / AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一个名为AutoMoT的新型自动驾驶模型，它巧妙地将视觉理解、语言推理和动作规划整合在一个框架内，通过异步处理机制既保留了通用大模型的推理能力，又实现了高效、实时的驾驶决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18184

arXiv 提交日期: 2026-01-26

audio natural language processing systems speech recognition speaker diarization multilingual asr end-to-end long-form audio

VIBEVOICE-ASR技术报告 / VIBEVOICE-ASR Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为VibeVoice-ASR的通用语音理解框架，它能够一次性处理长达60分钟的音频，将语音识别、说话人分离和时间戳生成整合成一个任务，支持多种语言和混合语言场景，并能通过用户提供的提示信息来提高专业术语和歧义词汇的识别准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14251

arXiv 提交日期: 2026-01-20

multi-modal natural language processing computer vision optical character recognition vision-language model document understanding multilingual end-to-end

LightOnOCR：一个10亿参数的端到端多语言视觉-语言模型，用于实现最先进的OCR / LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

1️⃣ 一句话总结

这篇论文提出了一个名为LightOnOCR-2-1B的轻量级模型，它能够直接将文档图片（如PDF）转换成干净、顺序自然的文本，无需复杂的传统OCR流程，并且在性能上超越了更大、更慢的现有最佳模型，同时还能预测文档中图片的位置。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01554

arXiv 提交日期: 2026-01-04

natural language processing audio multi-modal speaker diarization speech transcription multimodal llm end-to-end meeting transcription

MOSS转录与说话人分离：具备说话人归属和时间戳的精准转录 / MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

1️⃣ 一句话总结

这篇论文提出了一个名为MOSS Transcribe Diarize的端到端多模态大语言模型，它能够同时、准确地识别会议等场景中谁在何时说了什么，并且在多项测试中超越了当前最先进的商业系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.13013

1️⃣ 一句话总结

arXiv ID: 2603.14851

1️⃣ 一句话总结

arXiv ID: 2601.18184

1️⃣ 一句话总结

arXiv ID: 2601.14251

1️⃣ 一句话总结

arXiv ID: 2601.01554

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.13013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14851 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14251 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01554 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.13013

arXiv ID: 2603.14851

arXiv ID: 2601.18184

arXiv ID: 2601.14251

arXiv ID: 2601.01554