arXiv最新AI论文速览速学

🔍

model training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: How to Guide Your Flow: Few-Step Alignment via Flow Map Reward Guidance 05-03

arXiv ID: 2510.12764

arXiv 提交日期: 2025-10-14

computer vision model training systems feature upsampling vision transformers inference-time processing feature agnostic resolution enhancement

AnyUp：通用特征上采样方法 / AnyUp: Universal Feature Upsampling

1️⃣ 一句话总结

这篇论文提出了一种名为AnyUp的通用特征上采样方法，无需针对特定编码器重新训练，就能高效提升各种视觉特征的分辨率并保持语义质量，适用于广泛的视觉任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11718

arXiv 提交日期: 2025-10-13

natural language processing multi-modal model training visual reasoning mathematical reasoning code generation chain-of-thought vision language models

CodePlot-CoT：通过代码驱动图像进行数学视觉推理 / CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

1️⃣ 一句话总结

这项研究提出了一种利用代码生成图像辅助数学推理的新方法，通过构建大规模数据集和训练模型，显著提升了解决需要视觉辅助的数学问题的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11712

arXiv 提交日期: 2025-10-13

computer vision aigc model training panoramic image generation diffusion transformers multi-domain training geometric fidelity text-to-panorama

DiT360：通过混合训练生成高保真全景图像 / DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

1️⃣ 一句话总结

这篇论文提出了一种名为DiT360的新方法，通过混合使用普通视角图像和全景图像进行训练，有效解决了全景图像生成中常见的几何失真和真实感不足的问题，从而在各种任务中生成边界更连贯、画面更逼真的全景图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11696

arXiv 提交日期: 2025-10-13

llm model training reinforcement learning quantization rl training memory efficiency low-rank adaptation exploration enhancement

超越效率：面向大语言模型的量化增强强化学习 / QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

1️⃣ 一句话总结

本文提出了一种名为QeRL的量化增强强化学习框架，它不仅通过降低内存占用和加速训练过程来提升大语言模型强化学习的效率，还巧妙地利用量化噪声增强策略探索能力，从而在数学推理等任务上达到与全参数微调相当甚至更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11690

arXiv 提交日期: 2025-10-13

model training computer vision aigc diffusion transformers representation autoencoders image generation latent space transformer architecture

基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders

1️⃣ 一句话总结

这篇论文提出用预训练的表征编码器替代传统VAE，构建新型表征自动编码器，解决了扩散变换器中潜在空间信息容量低和表示质量差的问题，从而在图像生成任务上取得了更优的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11650

arXiv 提交日期: 2025-10-13

computer vision aigc model training 3d human generation avatar creation diffusion models multi-modal dataset controllable generation

InfiniHuman：具有精确控制的无限3D人体生成 / InfiniHuman: Infinite 3D Human Creation with Precise Control

1️⃣ 一句话总结

这篇论文提出了一个名为InfiniHuman的创新框架，通过智能整合现有视觉与语言基础模型，自动生成大规模、多样化的3D人体数据，并基于此数据开发了一个能够快速、高质量生成且支持精细控制的3D虚拟人像的生成系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11027

arXiv 提交日期: 2025-10-13

robotics agents model training embodied reasoning vision-language-action policy learning domain shift robot control

Vlaser：具备协同具身推理能力的视觉-语言-动作模型 / Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

1️⃣ 一句话总结

这项研究提出了一个名为Vlaser的智能体基础模型，它通过整合高级推理与低级控制能力，有效解决了视觉语言模型推理与机器人动作策略学习之间的衔接问题，并在多个具身推理任务和机器人控制基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10868

arXiv 提交日期: 2025-10-13

computer vision model training model evaluation human mesh recovery transformer optimization token merging layer merging diffusion decoding

FastHMR：通过令牌与层合并及扩散解码加速人体网格恢复 / FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为FastHMR的新方法，通过智能合并冗余计算层和背景信息令牌，并结合扩散模型进行精细解码，在显著提升3D人体姿态恢复速度的同时，还能略微提高预测精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10681

arXiv 提交日期: 2025-10-12

llm model training data data recycling reinforcement learning pretraining rephrasing faithful generation

RePro：训练语言模型忠实回收网络数据用于预训练 / RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

1️⃣ 一句话总结

这篇论文提出了一种名为RePro的新方法，通过训练一个小型语言模型来智能改写网络数据，既提升预训练数据质量又保持原意，使模型在多项任务上的表现显著优于传统方法，并实现了2-3倍的数据利用效率提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10637

arXiv 提交日期: 2025-10-12

robotics multi-modal model training sim-to-real gaussian splatting robotic manipulation mllm zero-shot transfer

基于高斯泼溅的真实世界零样本机器人操作学习高保真模拟数据生成 / High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

1️⃣ 一句话总结

这篇论文提出了一种名为RoboSimGS的新方法，通过结合3D高斯泼溅和多模态大语言模型，将真实世界图像自动转换为高保真、可物理交互的模拟环境，从而让在模拟环境中训练的机器人策略能够直接成功应用于真实世界的各种操作任务，有效解决了模拟与现实之间的性能差距问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.12764

1️⃣ 一句话总结

arXiv ID: 2510.11718

1️⃣ 一句话总结

arXiv ID: 2510.11712

1️⃣ 一句话总结

arXiv ID: 2510.11696

1️⃣ 一句话总结

arXiv ID: 2510.11690

1️⃣ 一句话总结

arXiv ID: 2510.11650

1️⃣ 一句话总结

arXiv ID: 2510.11027

1️⃣ 一句话总结

arXiv ID: 2510.10868

1️⃣ 一句话总结

arXiv ID: 2510.10681

1️⃣ 一句话总结

arXiv ID: 2510.10637

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.12764 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11712 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11696 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11690 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11650 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10637 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.12764

arXiv ID: 2510.11718

arXiv ID: 2510.11712

arXiv ID: 2510.11696

arXiv ID: 2510.11690

arXiv ID: 2510.11650

arXiv ID: 2510.11027

arXiv ID: 2510.10868

arXiv ID: 2510.10681

arXiv ID: 2510.10637