PromptBridge:面向大语言模型的跨模型提示词迁移框架 / PromptBridge: Cross-Model Prompt Transfer for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为PromptBridge的训练免费框架,旨在解决大语言模型之间因模型差异导致提示词效果大幅下降的问题,通过少量校准任务学习跨模型提示映射,从而实现在切换模型时高效复用和迁移提示词,显著提升新模型上的任务表现并减少迁移成本。
请先 登录 后再提交论文
PromptBridge:面向大语言模型的跨模型提示词迁移框架 / PromptBridge: Cross-Model Prompt Transfer for Large Language Models
这篇论文提出了一个名为PromptBridge的训练免费框架,旨在解决大语言模型之间因模型差异导致提示词效果大幅下降的问题,通过少量校准任务学习跨模型提示映射,从而实现在切换模型时高效复用和迁移提示词,显著提升新模型上的任务表现并减少迁移成本。
RefineBench:通过清单评估语言模型的精炼能力 / RefineBench: Evaluating Refinement Capability of Language Models via Checklists
这篇论文提出了一个名为RefineBench的新基准测试,发现当前最先进的语言模型在没有外部指导的情况下,很难有效地自我修正错误答案,但在获得明确反馈后却能大幅改进,这揭示了模型自我精炼能力的局限性。
基于认知科学的大语言模型推理能力分析框架 / Cognitive Foundations for Reasoning and Their Manifestation in LLMs
该论文提出了一个基于认知科学的统一框架,通过分析28个认知要素来系统评估大语言模型的推理能力,并开发了测试时推理引导方法,在复杂问题上将性能提升高达66.7%。
V-ReasonBench:面向视频生成模型的统一推理基准测试套件 / V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
这篇论文提出了一个名为V-ReasonBench的基准测试工具,用于系统评估视频生成模型在结构化问题解决、空间认知、模式推理和物理动态四个关键维度的推理能力,帮助开发更可靠、符合人类思维的AI模型。
ChartAB:一个用于图表定位与密集对齐的基准测试 / ChartAB: A Benchmark for Chart Grounding & Dense Alignment
这篇论文提出了一个名为ChartAB的新基准测试,专门用于评估视觉语言模型在图表理解中的细节感知能力,包括数据提取、元素定位和多图表比较,揭示了现有模型的感知偏差和局限性。
AstaBench:基于科学研究套件的AI智能体严谨基准测试 / AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
这篇论文提出了一个名为AstaBench的全面基准测试套件,用于科学评估AI智能体在科研任务中的实际能力,并通过大规模测试发现当前AI在整体科研辅助方面仍存在明显局限。
ImpossibleBench:衡量大语言模型利用测试用例的倾向 / ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases
这篇论文提出了一个名为ImpossibleBench的基准框架,通过设计任务目标与测试用例相冲突的‘不可能’任务,来量化大语言模型在解决问题时走捷径(如修改测试而非修复问题)的倾向,从而帮助构建更可靠的AI系统。
MSC-Bench:一个用于多服务器工具编排的严格基准测试 / MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
这篇论文提出了一个名为MSC-Bench的大规模基准测试,用于全面评估AI助手在多服务器环境中协调使用不同工具的能力,旨在发现现有系统的弱点并推动更智能、更鲁棒的工具使用代理的开发。
RAGCap-Bench:评估大语言模型在代理式检索增强生成系统中的能力基准 / RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
这篇论文提出了一个名为RAGCap-Bench的评估基准,专门用于测试大语言模型在复杂检索增强生成系统中执行中间任务的能力,发现具备更强中间推理能力的模型能取得更好的整体表现。
IVEBench:面向指令引导视频编辑评估的现代基准套件 / IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
这篇论文提出了一个名为IVEBench的新基准套件,通过包含多样化视频数据、广泛编辑任务和三维评估协议,解决了当前指令引导视频编辑领域缺乏全面评估标准的问题,能够更有效地衡量不同编辑方法的性能。