arXiv ID:
2510.13928
大语言模型也会得'脑退化'! / LLMs Can Get "Brain Rot"!
1️⃣ 一句话总结
这项研究证实,持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降,且这种损害难以通过后续优化完全恢复,提醒我们应将数据质量视为模型训练期的安全问题。
大语言模型也会得'脑退化'! / LLMs Can Get "Brain Rot"!
这项研究证实,持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降,且这种损害难以通过后续优化完全恢复,提醒我们应将数据质量视为模型训练期的安全问题。
绘制信息流:揭示视频大语言模型中隐藏的信息传递路径 / Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
这项研究通过分析视频大语言模型内部工作机制,揭示了其进行时间推理时遵循的固定信息流动模式,并发现模型在保留核心性能的同时可以大幅简化注意力连接。
Diff-XYZ:一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding
这篇论文提出了一个名为Diff-XYZ的基准测试,用于评估大型语言模型理解和处理代码变更的能力,并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。
大型推理模型是否可被打断? / Are Large Reasoning Models Interruptible?
这篇论文研究发现,在需要长时间推理的任务中,当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降,揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。
IVEBench:面向指令引导视频编辑评估的现代基准套件 / IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
这篇论文提出了一个名为IVEBench的新基准套件,通过包含多样化视频数据、广泛编辑任务和三维评估协议,解决了当前指令引导视频编辑领域缺乏全面评估标准的问题,能够更有效地衡量不同编辑方法的性能。
LikePhys:通过似然偏好评估视频扩散模型中的直觉物理理解 / LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
这项研究提出了一种无需训练的方法LikePhys,通过比较物理合理与不合理视频的生成概率来评估视频扩散模型对物理规律的理解能力,发现模型规模越大对物理世界的模拟越准确,但在复杂动态场景中仍有不足。
DocReward:一种用于文档结构与风格优化的文档奖励模型 / DocReward: A Document Reward Model for Structuring and Stylizing
这篇论文提出了DocReward模型,它能专门评估文档的结构和排版美观度,帮助AI自动生成更符合人类偏好的专业文档,其效果优于GPT-4o和GPT-5。
GIR-Bench:用于推理图像生成的通用基准 / GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
这篇论文提出了一个名为GIR-Bench的基准测试,用于系统评估多模态模型在图像理解与生成之间的一致性、逻辑推理驱动的图像生成以及多步骤图像编辑能力,揭示了当前模型在理解与生成之间仍存在差距。
FastHMR:通过令牌与层合并及扩散解码加速人体网格恢复 / FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
这篇论文提出了一种名为FastHMR的新方法,通过智能合并冗余计算层和背景信息令牌,并结合扩散模型进行精细解码,在显著提升3D人体姿态恢复速度的同时,还能略微提高预测精度。
OmniVideoBench:面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
这篇论文提出了一个名为OmniVideoBench的大规模评估基准,专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力,发现现有模型与人类水平仍有较大差距。
请先 登录 后再提交论文