arXiv ID:
2603.10400
基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence
1️⃣ 一句话总结
这篇论文提出了一种新算法,能够利用廉价但有偏见的大语言模型自动评分,结合少量精准但昂贵的人工审核,高效且可靠地找出最佳服务系统配置,从而大幅降低评估成本。
基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence
这篇论文提出了一种新算法,能够利用廉价但有偏见的大语言模型自动评分,结合少量精准但昂贵的人工审核,高效且可靠地找出最佳服务系统配置,从而大幅降低评估成本。
PEEM:用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses
这篇论文提出了一个名为PEEM的评估框架,它通过一套包含9个维度的结构化标准(如提示的清晰度、公平性,回答的准确性、连贯性等),并借助大语言模型自动给出评分和解释性理由,从而能系统地诊断和优化用户与大语言模型的交互过程,而不仅仅是判断答案对错。
IH挑战:一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
这篇论文提出了一个名为IH-Challenge的训练数据集,专门用来训练大语言模型学会在接收到相互冲突的指令时,能按照预设的优先级(如系统指令高于用户指令)做出正确响应,从而有效抵御恶意攻击并提升模型的安全性,实验表明使用该数据集训练能显著提升模型在这方面的能力。
VERI-DPO:通过声明验证与直接偏好优化实现证据感知的临床摘要对齐 / VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization
这篇论文提出了一种名为VERI-DPO的新方法,它通过一个验证器来检查临床摘要中的陈述是否有医疗记录支持,并利用这些检查结果来训练摘要模型,从而在保持信息量的同时,显著减少了摘要中无依据或错误的陈述。
多语言推理训练场:程序化推理环境的多语言扩展 / Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments
这篇论文提出了一个名为‘多语言推理训练场’的新平台,它在原有基础上将程序化生成的可验证推理问题扩展到了14种语言,通过精心翻译和适配确保了问题的自然性,从而能够大规模生成跨语言平行的训练数据,以支持多语言推理模型的研究。
MultiwayPAM:用于LLM-as-a-Judge评分分析的多向围绕中心点划分方法 / MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis
本文提出了一种名为MultiwayPAM的张量聚类新方法,用于高效分析LLM作为评分员时产生的多维度评分数据,从而揭示评分偏差的结构并降低计算成本。
对话式AI增强的探索系统:用于查询自然历史博物馆大规模数字化馆藏 / Conversational AI-Enhanced Exploration System to Query Large-Scale Digitised Collections of Natural History Museums
这项研究设计了一个结合交互式地图和自然语言对话AI的系统,让普通用户无需专业知识就能轻松查询和理解澳大利亚博物馆近170万件数字化生物标本,为公众探索大型科学数据集提供了新方法。
基于搜索者偏好对齐大语言模型 / Aligning Large Language Models with Searcher Preferences
这篇论文提出了首个用于开放式生成式搜索的大语言模型SearchLLM,它通过一个分层的多维奖励系统来确保回答的准确性、安全性和对用户需求的匹配,并在实际部署中显著提升了搜索质量和用户参与度。
超越共识的幻象:从表面启发式到基于知识的评估——论大语言模型作为评判者 / Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge
这篇论文挑战了‘大语言模型作为评判者时,评判结果高度一致就代表评估可靠’的普遍假设,指出这种共识常是假象,并提出了一个基于领域知识动态生成评估标准的新方法,能让评估在客观领域更一致、在主观领域更真实地反映多元观点。
用于处方验证安全性与可追溯性的混合知识基础框架 / A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification
本研究提出了一种名为PharmGraph-Auditor的新型系统,它通过构建一个混合知识库并采用一种基于知识库的验证链推理方法,将大语言模型转变为透明、可追溯的推理引擎,旨在安全、高效地辅助药剂师进行处方审核,以减少用药错误。
请先 登录 后再提交论文