📄 论文总结
TRAVL:一种提升视频语言模型在物理不合理性判断能力的方案 / TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
1️⃣ 一句话总结
本文提出了一种名为TRAVL的优化方法,通过平衡训练数据和轨迹感知注意力模块来增强视频语言模型对物理不合理性的判断能力,并创建了一个名为ImplausiBench的基准测试来更严格地评估模型的物理推理表现。
请先 登录 后再提交论文
TRAVL:一种提升视频语言模型在物理不合理性判断能力的方案 / TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
本文提出了一种名为TRAVL的优化方法,通过平衡训练数据和轨迹感知注意力模块来增强视频语言模型对物理不合理性的判断能力,并创建了一个名为ImplausiBench的基准测试来更严格地评估模型的物理推理表现。
ToolRM:面向工具调用大语言模型的结果奖励模型 / ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
这篇论文针对大语言模型使用外部工具时现有奖励模型评估效果不佳的问题,提出了一个基于结果的新型奖励模型训练框架,并在多个测试中显著提升了模型使用工具完成任务的性能。
面向可信度的上下文工程:混合与不当上下文下的Rescorla-Wagner引导 / Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts
这项研究揭示了大型语言模型在处理混合上下文时容易受到少量不当内容影响的脆弱性,并提出了一种基于神经科学模型的微调方法,能有效引导模型忽略有害信息,显著提升回答质量和安全性。
TCIA:一种面向任务的指令增强方法用于指令微调 / TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning
本文提出了一种名为TCIA的指令增强方法,它能在保持指令多样性的同时,专门针对特定任务场景生成相关指令,从而显著提升大型语言模型在现实任务中的性能,且不影响其通用指令遵循能力。