arXiv最新AI论文速览速学

🔍

标签: #end-to-end training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning 05-15

arXiv ID: 2605.14212

arXiv 提交日期: 2026-05-14

agents reinforcement learning systems multi-agent systems end-to-end training hierarchical rollout co-evolution workflow generation

MetaAgent-X：通过端到端强化学习突破自动多智能体系统的天花板 / MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为MetaAgent-X的端到端强化学习框架，能够同时优化多智能体系统的自动设计与执行过程，通过让系统自己学习如何设计任务流程和执行任务，显著提升了现有自动多智能体系统的性能，实现了最高21.7%的提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10835

arXiv 提交日期: 2026-05-11

machine learning data multi-modal optical music recognition synthetic data grammar-based decoding end-to-end training omr benchmark

Transcoda：基于数据驱动的合成训练的端到端零样本光学乐谱识别 / Transcoda: End-to-End Zero-Shot Optical Music Recognition via Data-Centric Synthetic Training

1️⃣ 一句话总结

本文提出了一种名为Transcoda的光学乐谱识别系统，通过先进的合成数据生成、编码标准化和语法约束解码，仅用6小时在单GPU上训练一个小模型，就大幅超越了现有大型模型在合成乐谱和历史扫描乐谱上的识别准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12487

arXiv 提交日期: 2026-04-14

llm agents natural language processing knowledge graph reasoning reinforcement learning multi-hop reasoning knowledge base question answering end-to-end training

KG-Reasoner：一个用于端到端多跳知识图谱推理的强化学习模型 / KG-Reasoner: A Reinforced Model for End-to-End Multi-Hop Knowledge Graph Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为KG-Reasoner的端到端框架，它通过强化学习训练大语言模型，使其能够像人一样在知识图谱中进行动态、连贯的多步推理，从而有效解决了复杂查询的推理难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23885

arXiv 提交日期: 2026-03-25

multi-modal model training data document parsing scene synthesis benchmark multimodal llm end-to-end training

迈向真实世界文档解析：通过真实场景合成与文档感知训练 / Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training

1️⃣ 一句话总结

这篇论文提出了一种结合大规模合成数据和针对性训练策略的新方法，有效解决了现有模型在解析真实世界复杂文档时出现的结构混乱和内容错误问题，显著提升了文档解析的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10468

arXiv 提交日期: 2026-03-11

audio natural language processing systems speaker diarization speech recognition end-to-end training multi-party speech speech-llm

G-STAR：端到端的全局说话人追踪与属性识别 / G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

1️⃣ 一句话总结

这篇论文提出了一个名为G-STAR的端到端系统，它结合了时间感知的说话人追踪模块和语音大语言模型转录主干，旨在解决长篇幅、多说话人重叠语音场景下的时间戳标注和跨片段说话人身份一致性识别难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20645

arXiv 提交日期: 2025-11-25

computer vision model training aigc diffusion transformers image generation pixel space text-to-image end-to-end training

PixelDiT：用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为PixelDiT的新型图像生成模型，它摒弃了传统两阶段流程中依赖的压缩编码器，直接在原始像素空间进行端到端训练，通过结合全局语义和局部细节的双层变换器设计，在保持图像精细纹理的同时，取得了比以往像素级生成模型更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18659

arXiv 提交日期: 2025-11-24

llm natural language processing model training retrieval-augmented generation latent reasoning knowledge compression end-to-end training question answering

CLaRa：通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为CLaRa的统一框架，通过将检索和生成过程整合到同一个连续空间中进行联合优化，有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题，并在多个问答基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26697

arXiv 提交日期: 2025-10-30

llm model training natural language processing decoding strategies end-to-end training temperature prediction top-p prediction instruction-based control

手动解码的终结：迈向真正端到端的语言模型 / The End of Manual Decoding: Towards Truly End-to-End Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为AutoDeco的新型架构，让语言模型能够自己学习并动态调整解码策略，无需人工干预调参，实现了真正的端到端生成，并能根据自然语言指令实时控制输出风格。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08565

arXiv 提交日期: 2025-10-09

multi-modal llm model training multimodal llms scaling properties end-to-end training vision-language models data efficiency

NaViL：数据约束下重新思考原生多模态大语言模型的扩展特性 / NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

1️⃣ 一句话总结

这项研究提出了一种名为NaViL的原生多模态大模型，通过端到端训练方式探索了视觉编码器与大语言模型之间的正向扩展关系，并在14个基准测试中验证了其高效且具有竞争力的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.14212

1️⃣ 一句话总结

arXiv ID: 2605.10835

1️⃣ 一句话总结

arXiv ID: 2604.12487

1️⃣ 一句话总结

arXiv ID: 2603.23885

1️⃣ 一句话总结

arXiv ID: 2603.10468

1️⃣ 一句话总结

arXiv ID: 2511.20645

1️⃣ 一句话总结

arXiv ID: 2511.18659

1️⃣ 一句话总结

arXiv ID: 2510.26697

1️⃣ 一句话总结

arXiv ID: 2510.08565

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.14212 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10835 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12487 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23885 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20645 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26697 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08565 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.14212

arXiv ID: 2605.10835

arXiv ID: 2604.12487

arXiv ID: 2603.23885

arXiv ID: 2603.10468

arXiv ID: 2511.20645

arXiv ID: 2511.18659

arXiv ID: 2510.26697

arXiv ID: 2510.08565