arXiv ID:
2510.13998
BitNet蒸馏 / BitNet Distillation
1️⃣ 一句话总结
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
BitNet蒸馏 / BitNet Distillation
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
大语言模型也会得'脑退化'! / LLMs Can Get "Brain Rot"!
这项研究证实,持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降,且这种损害难以通过后续优化完全恢复,提醒我们应将数据质量视为模型训练期的安全问题。
基于渐进难度增强机制的Web智能体数据合成方法 / Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
这篇论文提出了一种通过逐步增加任务难度来合成高质量训练数据的方法,使得训练出的网络智能体在复杂问答任务中表现更优,同时避免了重复工具使用行为。
关于项目级代码补全的预训练研究 / On Pretraining for Project-Level Code Completion
这项研究表明,通过调整位置编码参数扩展模型上下文窗口,能在较小数据集上实现与大型模型相媲美的项目级代码补全性能,同时发现更简单的文件级训练方法同样高效,降低了研究门槛。
VIST3A:通过将多视角重建网络与视频生成器拼接实现文本到3D生成 / VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
这篇论文提出了一种名为VIST3A的新方法,通过巧妙拼接文本生成视频模型和3D重建网络,并利用对齐优化技术,实现了从文字描述直接生成高质量、逼真的3D场景,效果优于现有主流技术。
镜像推测解码:打破大语言模型推理中的串行瓶颈 / Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
本文提出了一种名为镜像推测解码的新算法,通过并行异构计算和多令牌推测流技术,在大幅降低大语言模型推理延迟的同时保持高准确率,实现了比现有方法更优的加速效果。
VLA-0:零修改构建顶尖视觉语言动作模型 / VLA-0: Building State-of-the-Art VLAs with Zero Modification
这篇论文提出了一种名为VLA-0的简单方法,通过直接将机器人动作表示为文本,无需修改现有视觉语言模型,就在多个机器人操作基准测试中超越了更复杂的模型,证明了简洁设计的强大潜力。
AnyUp:通用特征上采样方法 / AnyUp: Universal Feature Upsampling
这篇论文提出了一种名为AnyUp的通用特征上采样方法,无需针对特定编码器重新训练,就能高效提升各种视觉特征的分辨率并保持语义质量,适用于广泛的视觉任务。
CodePlot-CoT:通过代码驱动图像进行数学视觉推理 / CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
这项研究提出了一种利用代码生成图像辅助数学推理的新方法,通过构建大规模数据集和训练模型,显著提升了解决需要视觉辅助的数学问题的能力。
DiT360:通过混合训练生成高保真全景图像 / DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
这篇论文提出了一种名为DiT360的新方法,通过混合使用普通视角图像和全景图像进行训练,有效解决了全景图像生成中常见的几何失真和真实感不足的问题,从而在各种任务中生成边界更连贯、画面更逼真的全景图像。
请先 登录 后再提交论文