C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
请先 登录 后再提交论文
C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
CUDA-L2:通过强化学习超越cuBLAS的矩阵乘法性能 / CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning
这篇论文提出了一个名为CUDA-L2的系统,它利用大语言模型和强化学习来自动优化GPU上的矩阵乘法计算核心,其性能超越了包括英伟达官方库在内的现有最佳方案,证明了AI自动化优化可以突破人类手动优化的性能极限。
深度研究:一项系统性综述 / Deep Research: A Systematic Survey
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。
WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
工具交响乐:通过高效的模型与工具编排提升智能 / ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
这篇论文提出了一种名为ToolOrchestra的方法,通过训练一个小型的‘指挥家’模型来协调调用各种智能工具,从而在解决复杂任务时,以更低的成本实现了比大型语言模型(如GPT-5)更高的性能和效率,并且能更好地满足用户偏好。
UniQL:面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
这篇论文提出了一个名为UniQL的统一框架,它通过结合量化与低秩压缩技术,在云端一次性完成模型优化,使大语言模型能在手机等边缘设备上高效运行,在显著减小模型体积并提升运行速度的同时,基本保持原有的准确性。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
SR-GRPO:将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
这篇论文提出了一种名为‘稳定秩’的新方法,它通过分析模型内部表示的空间结构来自动评估输出质量,并以此作为奖励信号来优化大语言模型,无需依赖人工标注或外部奖励模型,就能有效提升模型在数学推理等任务上的表现。
OpenREAD:基于LLM作为评判者的强化开放式推理端到端自动驾驶 / OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic
这篇论文提出了一个名为OpenREAD的端到端自动驾驶框架,它通过使用大型语言模型作为评判者来量化开放式问题的推理质量,并利用强化学习对整个系统进行联合优化,从而在推理和规划任务上取得了领先的性能。