PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
1️⃣ 一句话总结
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
请先 登录 后再提交论文
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
SR-GRPO:将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
这篇论文提出了一种名为‘稳定秩’的新方法,它通过分析模型内部表示的空间结构来自动评估输出质量,并以此作为奖励信号来优化大语言模型,无需依赖人工标注或外部奖励模型,就能有效提升模型在数学推理等任务上的表现。
非结构化数据流形特征结构学习 / Learning Eigenstructures of Unstructured Data Manifolds
这篇论文提出了一种无需预先构建和离散化传统算子的新方法,它通过训练神经网络直接从非结构化数据中学习出类似于拉普拉斯算子的特征基,为几何处理提供了一种数据驱动的统一解决方案。
Script:面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
本文提出了一种名为Script的即插即用令牌剪枝方法,通过结合图结构剪枝和查询条件语义剪枝,在无需重新训练的情况下,显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。
Flash-DMD:通过高效蒸馏与联合强化学习实现高保真少步图像生成 / Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
这篇论文提出了一种名为Flash-DMD的新框架,它通过一种高效的“时间步感知”蒸馏方法大幅降低了训练成本,并同时结合强化学习进行微调,从而稳定、快速地训练出能用极少步骤生成高质量图像的模型。
通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
LFM2技术报告 / LFM2 Technical Report
这篇论文提出了一个名为LFM2的系列模型,它专门为在手机等边缘设备上高效运行而设计,通过创新的架构和训练方法,在保持强大任务处理能力的同时,实现了比同类模型更快的推理速度和更低的内存占用。
DreamingComics:一种基于视频模型、通过主体与布局定制生成的故事可视化流程 / DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
这篇论文提出了一个名为DreamingComics的故事可视化新方法,它通过改进的视频模型和创新的布局控制技术,能根据文字脚本自动生成漫画风格且角色与画风高度一致的连续画面。
CauSight:学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery
这篇论文提出了一个名为CauSight的新模型,它能够像人一样从图片中识别出事物之间的因果关系,而不仅仅是看到它们,并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法,在视觉因果发现任务上显著超越了GPT-4等现有模型。
POLARIS:用于扩散模型中鲁棒自适应反演的投影正交最小二乘法 / POLARIS: Projection-Orthogonal Least Squares for Robust and Adaptive Inversion in Diffusion Models
这篇论文发现扩散模型在图像编辑中效果变差的关键原因在于噪声近似误差的累积,并提出了一种名为POLARIS的简单高效方法,通过动态调整一个关键参数来从根源上最小化每一步的误差,从而显著提升图像重建和后续编辑任务的质量。