📄 论文总结
FinLFQA:评估大语言模型在金融长文本问答中的归因文本生成能力 / FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
1️⃣ 一句话总结
这篇论文提出了一个名为FinLFQA的金融领域长文本问答基准,用于全面评估大语言模型在生成答案时提供可靠证据、数值推理和专业知识归因的能力,并发现细粒度指标对区分模型性能至关重要。
请先 登录 后再提交论文
FinLFQA:评估大语言模型在金融长文本问答中的归因文本生成能力 / FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
这篇论文提出了一个名为FinLFQA的金融领域长文本问答基准,用于全面评估大语言模型在生成答案时提供可靠证据、数值推理和专业知识归因的能力,并发现细粒度指标对区分模型性能至关重要。
UniDoc-Bench:面向文档中心多模态检索增强生成的统一基准 / UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG
这篇论文提出了首个大规模、真实场景下的多模态检索增强生成基准UniDoc-Bench,通过整合文本、表格和图像信息构建了1600个问答对,实验证明融合多模态信息的系统优于单一模态方法,并为开发更鲁棒的文档处理系统提供了实用指导。
SurveyBench:大语言模型(智能体)能否撰写符合读者需求的学术综述? / SurveyBench: Can LLM(-Agents) Write Academic Surveys that Align with Reader Needs?
这篇论文提出了一个名为SurveyBench的评估框架,通过设计精细的指标和测试方法,系统地检验大语言模型自动撰写学术综述的能力是否满足读者需求,发现现有方法在内容质量上仍显著低于人类水平。
迈向可扩展且一致的3D编辑 / Towards Scalable and Consistent 3D Editing
这篇论文通过构建大规模3D编辑数据集并提出一种无需手动标注就能保持3D结构完整性的新模型,解决了3D编辑中视图不一致和结构失真的难题,实现了更精确、高效的3D内容修改。
视频模型有多自信?赋能视频模型表达其不确定性 / How Confident are Video Models? Empowering Video Models to Express their Uncertainty
这篇论文首次提出了一种量化生成式视频模型不确定性的框架,通过一种无需严格假设的校准评估指标和名为S-QUBED的黑箱方法,将预测不确定性分解为数据固有和知识不足两部分,从而提升模型在真实应用中的安全性。
使用大语言模型进行上下文相关幻觉的细粒度检测 / Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs
这篇论文研究了如何利用大语言模型来精确定位文本生成中的幻觉问题,即模型输出无法从源文本验证的信息,并通过构建新基准和评估方法揭示了模型在此任务上的主要挑战和局限性。
MMR1:通过方差感知采样与开放资源增强多模态推理 / MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
该论文提出了一种方差感知采样方法来解决多模态模型强化学习训练不稳定的问题,并发布了大规模高质量思维链数据和开源模型,显著提升了数学推理任务的性能。
MOSS-ChatV:基于过程推理奖励的视频时序推理强化学习 / MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
这篇论文提出了一个名为MOSS-ChatV的强化学习框架,通过引入基于动态时间规整的过程奖励机制,有效解决了多模态大语言模型在视频推理中存在的中间推理过程与视频动态不一致的问题,从而提升了模型推理的稳定性和可解释性,并在多个视频基准测试中取得了优异性能。
ScaleDiff:为高级数学推理扩展难题规模 / ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
这篇论文提出了一种名为ScaleDiff的高效方法,通过自动筛选现有数据集中的难题并训练专门的生成器来大规模创造高难度数学问题,从而显著提升大型推理模型在复杂数学任务上的表现,同时大幅降低了计算成本和人工干预需求。
BESPOKE:基于诊断反馈的检索增强大语言模型个性化定制基准 / BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback
这项研究提出了一个名为BESPOKE的基准测试,通过收集真实用户聊天记录和搜索历史并搭配精细反馈,来系统评估检索增强大语言模型如何更好地理解不同用户的个性化需求并提供定制化信息。