arXiv ID:
2602.21479
多流审计的全局序贯检验 / Global Sequential Testing for Multi-Stream Auditing
1️⃣ 一句话总结
这篇论文提出了一种新的序贯检验方法,用于快速监测多个数据流中的异常,相比传统方法,它在不同异常模式下都能更快地发现问题。
多流审计的全局序贯检验 / Global Sequential Testing for Multi-Stream Auditing
这篇论文提出了一种新的序贯检验方法,用于快速监测多个数据流中的异常,相比传统方法,它在不同异常模式下都能更快地发现问题。
Duel-Evolve:基于大语言模型自我偏好的无奖励测试时优化方法 / Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences
这篇论文提出了一种名为Duel-Evolve的新方法,它让大语言模型在测试时通过比较自己生成的多个候选答案的优劣来迭代优化输出,无需依赖外部评分或奖励模型,就能在数学和代码生成等任务上显著提升性能。
小胜大:比较大语言模型与领域微调模型在混合印地-英语文本中的讽刺检测能力 / Small Wins Big: Comparing Large Language Models and Domain Fine-Tuned Models for Sarcasm Detection in Code-Mixed Hinglish Text
这项研究发现,在资源有限的混合印地-英语文本讽刺检测任务中,经过针对性微调的小型模型(DistilBERT)表现优于多种通用大语言模型,表明特定领域的精细调整比模型规模本身更为关键。
UniVBench:面向视频基础模型的统一评估 / UniVBench: Towards Unified Evaluation for Video Foundation Models
这篇论文提出了一个名为UniVBench的统一评估基准,它首次将视频理解、生成、编辑和重建四大核心能力整合到一个框架中进行综合测评,并引入了一个标准化的自动评估系统,旨在更全面、公平地衡量新一代视频基础模型的真实水平。
何时行动、询问或学习:基于不确定性的策略引导 / When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering
这篇论文提出了一个名为UPS的智能机器人决策框架,它能够识别任务指令的模糊性和自身执行能力的不确定性,从而自主选择是执行动作、向人类询问澄清,还是请求干预学习,以此减少对人工反馈的依赖并提升执行可靠性。
切片与解释:基于领域切片的神经网络逻辑解释方法 / Slice and Explain: Logic-Based Explanations for Neural Networks through Domain Slicing
这篇论文提出了一种利用‘领域切片’技术来加速神经网络逻辑解释生成的新方法,能在保证解释正确性的前提下,将解释生成时间减少高达40%。
从偏见到平衡:面向公平同行评审的公平感知论文推荐 / From Bias to Balance: Fairness-Aware Paper Recommendation for Equitable Peer Review
这篇论文提出了一种名为Fair-PaperRec的公平感知推荐系统,通过在推荐模型中引入公平性约束,能够在评审后显著增加代表性不足群体的论文入选率,同时基本保持整体推荐质量不变,为解决学术评审中的系统性偏见提供了一个实用框架。
看见它,说出它,搞定它:一种用于大型视觉语言模型视觉基础多模态推理的免训练迭代框架 / See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
这篇论文提出了一种无需额外训练、即插即用的轻量级方法,通过让大型视觉语言模型在推理的每一步都严格依据图像证据来生成回答,有效解决了多模态推理中视觉幻觉传播导致答案错误的问题,显著提升了多个基准测试的准确率。
海运船舶燃油消耗的估计与优化:综述、挑战与未来方向 / Estimation and Optimization of Ship Fuel Consumption in Maritime: Review, Challenges and Future Directions
这篇论文系统梳理了海运船舶燃油消耗的预测与优化方法,首次将预测模型分为物理模型、机器学习模型和混合模型三类,并强调了数据融合与可解释人工智能的重要性,同时指出了数据质量、实时优化等关键挑战及未来研究方向。
E-comIQ-ZH:一个用于电商海报细粒度评估的、符合人类判断的数据集与基准框架 / E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought
这篇论文针对中文电商海报质量缺乏有效自动化评估工具的问题,创建了一个包含多维评分和专家推理说明的大规模数据集,并基于此训练了一个能像人类专家一样评判海报质量的专用模型,为电商海报生成提供了首个可扩展的自动化评估基准。
请先 登录 后再提交论文