arXiv ID:
2511.20347
软自适应策略优化 / Soft Adaptive Policy Optimization
1️⃣ 一句话总结
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
OmniAlpha:统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架,通过创新的MSRoPE-BiL架构和AlphaLayers数据集,在21个任务上联合训练,实现了超越专用模型的性能。
UltraViCo:突破视频扩散变换器的外推极限 / UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
本文提出了一种无需训练的即插即用方法UltraViCo,通过抑制超出训练长度视频片段的注意力分散问题,成功将视频生成模型的外推能力从2倍提升至4倍,显著改善了生成视频的质量和连贯性。
SSA:通过特征空间中对齐完整与稀疏注意力输出的稀疏稀疏注意力 / SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space
这篇论文提出了一种名为SSA的新型训练框架,通过让稀疏注意力在每一层都与完整注意力的输出对齐,既保持了梯度更新到所有词元,又显著提升了模型在稀疏计算下的性能,同时支持灵活的计算与性能权衡。
OmniRefiner:基于强化学习的局部扩散模型图像精细化方法 / OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
这篇论文提出了一个名为OmniRefiner的两阶段图像精细化框架,它通过结合扩散模型和强化学习,有效解决了现有方法在根据参考图编辑生成图像时难以保留精细纹理和保持视觉一致性的问题。
Agent0-VL:通过工具集成推理实现自我演化的视觉语言智能体 / Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
Agent0-VL是一个创新的视觉语言模型框架,通过在单一模型中统一求解器和验证器两个协同角色,结合工具验证和强化学习,实现了无需外部奖励的闭环自我改进。
ThreadWeaver:面向语言模型高效并行推理的自适应线程技术 / ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
这篇论文提出了一种名为ThreadWeaver的新方法,它能让大语言模型在解决复杂问题时像多线程处理任务一样并行思考,从而在保持与顶尖顺序推理模型相同准确率的同时,显著提升了推理速度,且无需修改现有推理引擎。
LATTICE:大规模民主化高保真3D生成 / LATTICE: Democratize High-Fidelity 3D Generation at Scale
这篇论文提出了一个名为LATTICE的新框架,它通过一种创新的半结构化表示方法VoxSet和两阶段生成流程,解决了3D生成模型在质量和扩展性上长期落后于2D模型的难题,使得高效、高质量地大规模创建3D数字资产成为可能。
终端速度匹配 / Terminal Velocity Matching
这项研究提出了一种名为终端速度匹配的新方法,通过优化扩散模型在生成结束时的行为,实现了仅需1到4步就能生成高质量图像,在ImageNet数据集上取得了当前最优的单步/少步生成效果。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
请先 登录 后再提交论文