arXiv ID:
2509.06945
交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation
1️⃣ 一句话总结
这篇论文提出了一种交错推理生成框架,通过交替进行文本思考和图像合成来逐步优化图像细节与质量,显著提升了文本到图像生成的准确性和视觉效果。
交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation
这篇论文提出了一种交错推理生成框架,通过交替进行文本思考和图像合成来逐步优化图像细节与质量,显著提升了文本到图像生成的准确性和视觉效果。
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。
逆向工程推理用于开放式生成 / Reverse-Engineered Reasoning for Open-Ended Generation
这篇论文提出了一种名为REER的新方法,通过从已知的优秀解决方案逆向推导出潜在的逐步推理过程,有效解决了开放式创意生成中的深度推理难题,并基于此构建了一个大规模数据集,训练出的模型在多项任务中表现优于主流开源模型,甚至可与顶尖商业模型媲美。
Llama-GENBA-10B:一个面向德语、英语和巴伐利亚语的三语大语言模型 / Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
这篇论文开发了一个名为Llama-GENBA-10B的三语大模型,旨在解决现有大模型过度偏向英语的问题,特别提升了德语和资源稀缺的巴伐利亚语的处理能力,并在多语言评估中表现出色。
Delta激活:一种用于微调后大语言模型的表示方法 / Delta Activations: A Representation for Finetuned Large Language Models
本文提出了一种名为Delta激活的新方法,通过测量微调后模型与基础模型内部激活的差异来生成向量表示,从而帮助有效分类和比较不同任务及领域的微调模型,促进模型复用。
迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training
这篇论文提出了一个统一的理论框架,将大语言模型后训练的两种主流方法(基于人类示范的监督学习和基于模型生成数据的强化学习)视为同一优化过程的不同实例,并在此基础上开发了一种能动态选择训练信号的混合后训练算法,在多个数学推理基准测试中取得了优于现有方法的性能。
基于边缘数据输运蒸馏的少步流三维生成方法 / Few-step Flow for 3D Generation via Marginal-Data Transport Distillation
这项研究提出了一种名为MDT-dist的新方法,通过优化速度匹配和速度蒸馏目标,将复杂的三维生成模型的采样步骤从25步大幅减少到1-2步,在保持高质量生成效果的同时实现了6.5倍到9倍的加速。
过渡模型:重新思考生成式学习目标 / Transition Models: Rethinking the Generative Learning Objective
这篇论文提出了一种名为过渡模型(TiM)的新生成式AI方法,它通过一个灵活的连续时间动态方程,能够在任意生成步数下高效工作,仅用8.65亿参数就在图像质量和分辨率上超越了参数量大得多的主流模型,并且生成质量会随着步数增加稳定提升。
从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator
这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务,并提出了一个名为FE2E的新框架,通过改进训练目标和数据格式,无需额外数据就能在深度和法线估计上取得显著性能提升。
NER检索器:基于类型感知嵌入的零样本命名实体检索 / NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings
这篇论文提出了一种无需预定义实体类型、直接根据用户描述检索相关实体的新方法,通过优化大语言模型内部表示并训练轻量级网络,实现了高效且灵活的零样本实体检索。
请先 登录 后再提交论文