arXiv ID:
2603.10400
基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence
1️⃣ 一句话总结
这篇论文提出了一种新算法,能够利用廉价但有偏见的大语言模型自动评分,结合少量精准但昂贵的人工审核,高效且可靠地找出最佳服务系统配置,从而大幅降低评估成本。
基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence
这篇论文提出了一种新算法,能够利用廉价但有偏见的大语言模型自动评分,结合少量精准但昂贵的人工审核,高效且可靠地找出最佳服务系统配置,从而大幅降低评估成本。
PEEM:用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses
这篇论文提出了一个名为PEEM的评估框架,它通过一套包含9个维度的结构化标准(如提示的清晰度、公平性,回答的准确性、连贯性等),并借助大语言模型自动给出评分和解释性理由,从而能系统地诊断和优化用户与大语言模型的交互过程,而不仅仅是判断答案对错。
过于鲜艳而不真实?生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity
这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题,提出了一个包含数据集、评估指标和优化方法的完整框架,旨在客观评估并提升生成图像的色彩真实感。
IH挑战:一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
这篇论文提出了一个名为IH-Challenge的训练数据集,专门用来训练大语言模型学会在接收到相互冲突的指令时,能按照预设的优先级(如系统指令高于用户指令)做出正确响应,从而有效抵御恶意攻击并提升模型的安全性,实验表明使用该数据集训练能显著提升模型在这方面的能力。
超越准确率:卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks
这篇论文通过比较两种不确定性估计方法,指出在评估深度学习模型时,除了关注预测准确率,还必须重视模型预测的可靠性和校准程度,这对于高风险决策至关重要。
R4-CGQA:基于检索的视觉语言模型用于计算机图形图像质量评估 / R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment
这项研究通过构建一个包含详细质量描述的计算机图形图像数据集,并设计一种基于检索增强的两阶段框架,显著提升了现有视觉语言模型在评估计算机图形图像细粒度质量方面的准确性和解释能力。
MultiwayPAM:用于LLM-as-a-Judge评分分析的多向围绕中心点划分方法 / MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis
本文提出了一种名为MultiwayPAM的张量聚类新方法,用于高效分析LLM作为评分员时产生的多维度评分数据,从而揭示评分偏差的结构并降低计算成本。
一种通用的内在维度最近邻估计器 / A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality
这篇论文提出了一种基于最近邻距离比率的全新方法,能够简单高效且无需依赖数据分布假设地准确估计出高维数据的真实内在维度。
如何嵌入至关重要:对地球观测嵌入设计选择的评估 / How To Embed Matters: Evaluation of EO Embedding Design Choices
这篇论文通过系统性的实验分析,揭示了在地球观测任务中使用大型地理空间基础模型作为特征提取器时,不同的嵌入设计选择(如模型架构、预训练策略和特征聚合方式)如何影响下游任务的性能和效率,并提供了优化嵌入设计的最佳实践。
一个平台无关的多模态数字人建模框架:基于游戏交互的神经生理传感 / A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction
这篇论文提出了一个平台无关的多模态数字人建模框架,通过整合多种生理传感器和游戏化交互环境,为未来符合伦理、可复现的AI人机交互研究提供了一个标准化的数据采集与分析基础设施。
请先 登录 后再提交论文