大型语言模型测试时计算资源的扩展艺术 / The Art of Scaling Test-Time Compute for Large Language Models
1️⃣ 一句话总结
这项研究首次大规模评估了多种动态分配推理计算资源的策略,发现没有一种策略在所有情况下都最优,并基于模型类型、问题难度和计算预算,为如何选择最佳策略提供了实用指南。
请先 登录 后再提交论文
大型语言模型测试时计算资源的扩展艺术 / The Art of Scaling Test-Time Compute for Large Language Models
这项研究首次大规模评估了多种动态分配推理计算资源的策略,发现没有一种策略在所有情况下都最优,并基于模型类型、问题难度和计算预算,为如何选择最佳策略提供了实用指南。
WiseEdit:评估认知与创意驱动的图像编辑能力的基准 / WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
这篇论文提出了一个名为WiseEdit的新基准测试,它通过模拟人类认知创作过程来全面评估图像编辑模型在知识推理和创意生成方面的能力,揭示了当前先进模型的局限性。
从像素到感受:对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
这篇论文通过构建一个评估基准和提出一种后训练方法,成功让多模态大模型学会像人类一样感知图像的主观特性(如是否令人难忘、有趣或美观),并证明了这种能力能有效提升图像生成等下游任务的人本化水平。
一帧中的世界:理解文化混合作为视觉语言模型的新挑战 / World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
这篇论文指出,当来自不同文化的元素(如食物和背景)同时出现在一个画面中时,现有的大型视觉语言模型难以准确识别并保持它们各自的文化身份,为此作者创建了一个名为CultureMix的评测基准,并发现通过使用包含文化混合数据的监督微调可以有效提升模型在此类场景下的表现。
聚焦思维链:通过结构化输入信息实现高效大语言模型推理 / Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information
这篇论文提出了一种无需训练、基于输入信息结构化的‘聚焦思维链’方法,它能将问题中的关键信息提取并组织成简洁的上下文,从而引导大语言模型进行更专注、更高效的推理,在保持准确性的同时大幅减少生成的文本量。
SO-Bench:多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs
这篇论文提出了一个名为SO-Bench的新基准,专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式(如JSON)的结构化输出的能力,发现现有模型在此方面仍有不足,并通过训练实验展示了改进的可能性。
RefineBench:通过清单评估语言模型的精炼能力 / RefineBench: Evaluating Refinement Capability of Language Models via Checklists
这篇论文提出了一个名为RefineBench的新基准测试,发现当前最先进的语言模型在没有外部指导的情况下,很难有效地自我修正错误答案,但在获得明确反馈后却能大幅改进,这揭示了模型自我精炼能力的局限性。
大型语言模型在现实世界事件预测中的能力评估 / Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking
本研究系统评估了大型语言模型在现实世界事件预测中的能力,发现其预测性能在不同领域和提示框架下存在显著差异,并揭示了模型在引入新闻上下文后出现的系统性失败模式。
基于认知科学的大语言模型推理能力分析框架 / Cognitive Foundations for Reasoning and Their Manifestation in LLMs
该论文提出了一个基于认知科学的统一框架,通过分析28个认知要素来系统评估大语言模型的推理能力,并开发了测试时推理引导方法,在复杂问题上将性能提升高达66.7%。
UltraViCo:突破视频扩散变换器的外推极限 / UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
本文提出了一种无需训练的即插即用方法UltraViCo,通过抑制超出训练长度视频片段的注意力分散问题,成功将视频生成模型的外推能力从2倍提升至4倍,显著改善了生成视频的质量和连贯性。