arXiv ID:
2510.12764
AnyUp:通用特征上采样方法 / AnyUp: Universal Feature Upsampling
1️⃣ 一句话总结
这篇论文提出了一种名为AnyUp的通用特征上采样方法,无需针对特定编码器重新训练,就能高效提升各种视觉特征的分辨率并保持语义质量,适用于广泛的视觉任务。
AnyUp:通用特征上采样方法 / AnyUp: Universal Feature Upsampling
这篇论文提出了一种名为AnyUp的通用特征上采样方法,无需针对特定编码器重新训练,就能高效提升各种视觉特征的分辨率并保持语义质量,适用于广泛的视觉任务。
CodePlot-CoT:通过代码驱动图像进行数学视觉推理 / CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
这项研究提出了一种利用代码生成图像辅助数学推理的新方法,通过构建大规模数据集和训练模型,显著提升了解决需要视觉辅助的数学问题的能力。
DiT360:通过混合训练生成高保真全景图像 / DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
这篇论文提出了一种名为DiT360的新方法,通过混合使用普通视角图像和全景图像进行训练,有效解决了全景图像生成中常见的几何失真和真实感不足的问题,从而在各种任务中生成边界更连贯、画面更逼真的全景图像。
超越效率:面向大语言模型的量化增强强化学习 / QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
本文提出了一种名为QeRL的量化增强强化学习框架,它不仅通过降低内存占用和加速训练过程来提升大语言模型强化学习的效率,还巧妙地利用量化噪声增强策略探索能力,从而在数学推理等任务上达到与全参数微调相当甚至更好的性能。
基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders
这篇论文提出用预训练的表征编码器替代传统VAE,构建新型表征自动编码器,解决了扩散变换器中潜在空间信息容量低和表示质量差的问题,从而在图像生成任务上取得了更优的效果。
InfiniHuman:具有精确控制的无限3D人体生成 / InfiniHuman: Infinite 3D Human Creation with Precise Control
这篇论文提出了一个名为InfiniHuman的创新框架,通过智能整合现有视觉与语言基础模型,自动生成大规模、多样化的3D人体数据,并基于此数据开发了一个能够快速、高质量生成且支持精细控制的3D虚拟人像的生成系统。
Vlaser:具备协同具身推理能力的视觉-语言-动作模型 / Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
这项研究提出了一个名为Vlaser的智能体基础模型,它通过整合高级推理与低级控制能力,有效解决了视觉语言模型推理与机器人动作策略学习之间的衔接问题,并在多个具身推理任务和机器人控制基准测试中取得了领先性能。
FastHMR:通过令牌与层合并及扩散解码加速人体网格恢复 / FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
这篇论文提出了一种名为FastHMR的新方法,通过智能合并冗余计算层和背景信息令牌,并结合扩散模型进行精细解码,在显著提升3D人体姿态恢复速度的同时,还能略微提高预测精度。
RePro:训练语言模型忠实回收网络数据用于预训练 / RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
这篇论文提出了一种名为RePro的新方法,通过训练一个小型语言模型来智能改写网络数据,既提升预训练数据质量又保持原意,使模型在多项任务上的表现显著优于传统方法,并实现了2-3倍的数据利用效率提升。
基于高斯泼溅的真实世界零样本机器人操作学习高保真模拟数据生成 / High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
这篇论文提出了一种名为RoboSimGS的新方法,通过结合3D高斯泼溅和多模态大语言模型,将真实世界图像自动转换为高保真、可物理交互的模拟环境,从而让在模拟环境中训练的机器人策略能够直接成功应用于真实世界的各种操作任务,有效解决了模拟与现实之间的性能差距问题。
请先 登录 后再提交论文