arXiv ID:
2603.10400
基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence
1️⃣ 一句话总结
这篇论文提出了一种新算法,能够利用廉价但有偏见的大语言模型自动评分,结合少量精准但昂贵的人工审核,高效且可靠地找出最佳服务系统配置,从而大幅降低评估成本。
基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence
这篇论文提出了一种新算法,能够利用廉价但有偏见的大语言模型自动评分,结合少量精准但昂贵的人工审核,高效且可靠地找出最佳服务系统配置,从而大幅降低评估成本。
从图像到文字:面向语言模型的高效跨模态知识蒸馏(来自黑盒教师模型) / From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers
这篇论文提出了一个名为ARMADA的高效跨模态知识蒸馏框架,它能够将大型视觉-语言模型(包括无法获取内部结构的黑盒模型)的知识迁移到纯语言模型中,从而显著提升语言模型在理解和生成任务上的性能,且无需对教师模型进行昂贵的多模态预训练或微调。
PEEM:用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses
这篇论文提出了一个名为PEEM的评估框架,它通过一套包含9个维度的结构化标准(如提示的清晰度、公平性,回答的准确性、连贯性等),并借助大语言模型自动给出评分和解释性理由,从而能系统地诊断和优化用户与大语言模型的交互过程,而不仅仅是判断答案对错。
eLasmobranc数据集:一个用于软骨鱼类物种识别和生物多样性监测的图像数据集 / eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring
这篇论文发布了一个名为eLasmobranc的公开图像数据集,专门用于帮助人工智能系统精确识别和监测濒危的软骨鱼类物种,以支持生物多样性保护工作。
过于鲜艳而不真实?生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity
这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题,提出了一个包含数据集、评估指标和优化方法的完整框架,旨在客观评估并提升生成图像的色彩真实感。
DynVLA:学习世界动态以实现自动驾驶中的行为推理 / DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving
这篇论文提出了一种名为DynVLA的自动驾驶模型,它通过预测未来世界的紧凑动态变化来辅助决策,比单纯依赖文字或密集图像预测的方法更高效、更准确。
强化学习中的遍历性 / Ergodicity in reinforcement learning
这篇论文指出,当强化学习中的奖励过程不具备遍历性时,传统的期望值优化目标无法保证单个智能体的长期表现,并探讨了解决这一问题的现有方法。
IH挑战:一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
这篇论文提出了一个名为IH-Challenge的训练数据集,专门用来训练大语言模型学会在接收到相互冲突的指令时,能按照预设的优先级(如系统指令高于用户指令)做出正确响应,从而有效抵御恶意攻击并提升模型的安全性,实验表明使用该数据集训练能显著提升模型在这方面的能力。
基于参数化浅层循环解码器网络的核聚变代理模型:在磁流体动力学中的应用 / Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics
本研究提出了一种名为SHRED的智能数据驱动方法,它仅需少数几个传感器的温度读数,就能高效、准确地重建核聚变装置中复杂的磁流体动力学全状态,为实时监控和控制提供了低成本的计算方案。
超越准确率:卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks
这篇论文通过比较两种不确定性估计方法,指出在评估深度学习模型时,除了关注预测准确率,还必须重视模型预测的可靠性和校准程度,这对于高风险决策至关重要。
请先 登录 后再提交论文