arXiv ID:
2508.19982
扩散语言模型在解码前已知答案 / Diffusion Language Models Know the Answer Before Decoding
1️⃣ 一句话总结
这项研究发现扩散语言模型在生成过程中很早就已确定正确答案,并提出了一种无需训练的动态解码方法,可在保持质量的同时将推理速度提升最高3.4倍。
扩散语言模型在解码前已知答案 / Diffusion Language Models Know the Answer Before Decoding
这项研究发现扩散语言模型在生成过程中很早就已确定正确答案,并提出了一种无需训练的动态解码方法,可在保持质量的同时将推理速度提升最高3.4倍。
StepWiser:用于更明智推理的逐步生成式评判器 / StepWiser: Stepwise Generative Judges for Wiser Reasoning
这篇论文提出了一种名为StepWiser的新型AI评判系统,它通过生成解释性思考来评估多步推理过程中的每一步逻辑,从而比现有方法更准确地指导AI模型进行复杂问题的解决和优化。
MovieCORE:电影中的认知推理 / MovieCORE: COgnitive REasoning in Movies
这篇论文提出了一个名为MovieCORE的新型视频问答数据集,专门用于测试AI对电影内容深层认知理解的能力,并通过创新的智能增强方法显著提升了现有模型的推理表现。
ThinkDial:一种控制大语言模型推理计算量的开放方案 / ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
这篇论文提出了一个名为ThinkDial的开放框架,能让大语言模型像切换档位一样在三种推理模式间自由切换,从而在保持性能的同时显著降低计算成本。
通过模块社群揭示大型语言模型的认知模式 / Unraveling the cognitive patterns of Large Language Models through module communities
这项研究通过构建一个网络分析框架,发现大型语言模型内部存在独特的模块社群,其技能获取模式类似于鸟类和小型哺乳动物大脑的分布式认知结构,并指出有效的模型优化应利用动态跨区域交互而非固定模块干预。
A.S.E:一个用于评估AI生成代码安全性的仓库级基准 / A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
这篇论文提出了一个名为A.S.E的仓库级基准测试,用于评估AI生成代码的安全性,发现当前大语言模型在真实编程场景中仍难以生成安全代码,且代码复杂度增加时模型表现会下降。
大语言模型中的说服动态:基于DuET-PD框架探究知识与安全维度的鲁棒性与适应性 / Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
本研究提出DuET-PD评估框架,揭示大语言模型在对话中易受误导信息影响且难以接受正确修正的问题,并通过新型训练方法显著提升了模型对错误信息的抵抗力和对正确信息的接受度。
QueryBandits:一种基于上下文多臂老虎机的查询重写框架,用于主动减少大语言模型的幻觉生成 / QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
本文提出了QueryBandits框架,它将查询重写建模为一个在线决策问题,利用查询的语义特征,通过上下文多臂老虎机方法动态选择最佳重写策略,以主动减少大语言模型(LLM)的幻觉生成,并在多个问答基准上显著优于静态重写和无重写基线。
请先 登录 后再提交论文