📄 论文总结
大语言模型也会得'脑退化'! / LLMs Can Get "Brain Rot"!
1️⃣ 一句话总结
这项研究证实,持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降,且这种损害难以通过后续优化完全恢复,提醒我们应将数据质量视为模型训练期的安全问题。
请先 登录 后再提交论文
大语言模型也会得'脑退化'! / LLMs Can Get "Brain Rot"!
这项研究证实,持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降,且这种损害难以通过后续优化完全恢复,提醒我们应将数据质量视为模型训练期的安全问题。
RAGCap-Bench:评估大语言模型在代理式检索增强生成系统中的能力基准 / RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
这篇论文提出了一个名为RAGCap-Bench的评估基准,专门用于测试大语言模型在复杂检索增强生成系统中执行中间任务的能力,发现具备更强中间推理能力的模型能取得更好的整体表现。
Diff-XYZ:一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding
这篇论文提出了一个名为Diff-XYZ的基准测试,用于评估大型语言模型理解和处理代码变更的能力,并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。
VLA-0:零修改构建顶尖视觉语言动作模型 / VLA-0: Building State-of-the-Art VLAs with Zero Modification
这篇论文提出了一种名为VLA-0的简单方法,通过直接将机器人动作表示为文本,无需修改现有视觉语言模型,就在多个机器人操作基准测试中超越了更复杂的模型,证明了简洁设计的强大潜力。
IVEBench:面向指令引导视频编辑评估的现代基准套件 / IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
这篇论文提出了一个名为IVEBench的新基准套件,通过包含多样化视频数据、广泛编辑任务和三维评估协议,解决了当前指令引导视频编辑领域缺乏全面评估标准的问题,能够更有效地衡量不同编辑方法的性能。
GIR-Bench:用于推理图像生成的通用基准 / GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
这篇论文提出了一个名为GIR-Bench的基准测试,用于系统评估多模态模型在图像理解与生成之间的一致性、逻辑推理驱动的图像生成以及多步骤图像编辑能力,揭示了当前模型在理解与生成之间仍存在差距。
OmniVideoBench:面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
这篇论文提出了一个名为OmniVideoBench的大规模评估基准,专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力,发现现有模型与人类水平仍有较大差距。
RefusalBench:基于接地的语言模型选择性拒绝能力的生成式评估 / RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
这项研究提出了一个名为RefusalBench的动态评估框架,通过程序化生成测试案例发现当前语言模型在基于有缺陷的上下文信息时难以正确拒绝回答,并揭示了拒绝能力由可分离的检测和分类技能组成,且可通过训练提升。
FML-bench:用于评估自动机器学习研究智能体的基准,强调探索广度的重要性 / FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
这篇论文提出了一个名为FML-bench的新基准,用于全面评估能够自主进行机器学习研究的AI智能体,并通过实验发现采用广泛探索策略的智能体比仅进行深度优化的智能体表现更好。
HUME:衡量文本嵌入任务中人类与模型性能差距 / HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks
这篇论文提出了一个名为HUME的评估框架,通过测量人类在16种文本嵌入任务上的表现,发现当前最佳模型平均仅比人类表现高出2.5%,但在低资源语言任务中模型仍存在明显不足,为理解模型能力提供了重要参考基准。