arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 249 最新: Foundations and Architectures of Artificial Intelligence for Motor Insurance 03-20

arXiv ID: 2603.10400

arXiv 提交日期: 2026-03-11

llm systems model evaluation service systems sequential decision biased evaluation human-in-the-loop confidence sequences

基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence

1️⃣ 一句话总结

这篇论文提出了一种新算法，能够利用廉价但有偏见的大语言模型自动评分，结合少量精准但昂贵的人工审核，高效且可靠地找出最佳服务系统配置，从而大幅降低评估成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10877

arXiv 提交日期: 2026-03-11

multi-modal model training natural language processing knowledge distillation cross-modal learning vision-language models efficient training black-box teachers

从图像到文字：面向语言模型的高效跨模态知识蒸馏（来自黑盒教师模型） / From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

1️⃣ 一句话总结

这篇论文提出了一个名为ARMADA的高效跨模态知识蒸馏框架，它能够将大型视觉-语言模型（包括无法获取内部结构的黑盒模型）的知识迁移到纯语言模型中，从而显著提升语言模型在理解和生成任务上的性能，且无需对教师模型进行昂贵的多模态预训练或微调。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10477

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing prompt engineering evaluation metrics interpretability benchmarking automated evaluation

PEEM：用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

1️⃣ 一句话总结

这篇论文提出了一个名为PEEM的评估框架，它通过一套包含9个维度的结构化标准（如提示的清晰度、公平性，回答的准确性、连贯性等），并借助大语言模型自动给出评分和解释性理由，从而能系统地诊断和优化用户与大语言模型的交互过程，而不仅仅是判断答案对错。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10724

arXiv 提交日期: 2026-03-11

computer vision biology data fine-grained classification species recognition biodiversity monitoring image dataset conservation

eLasmobranc数据集：一个用于软骨鱼类物种识别和生物多样性监测的图像数据集 / eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

1️⃣ 一句话总结

这篇论文发布了一个名为eLasmobranc的公开图像数据集，专门用于帮助人工智能系统精确识别和监测濒危的软骨鱼类物种，以支持生物多样性保护工作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11041

arXiv 提交日期: 2026-03-11

agents computer vision multi-modal autonomous driving world dynamics chain-of-thought action reasoning vision-language-action

DynVLA：学习世界动态以实现自动驾驶中的行为推理 / DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DynVLA的自动驾驶模型，它通过预测未来世界的紧凑动态变化来辅助决策，比单纯依赖文字或密集图像预测的方法更高效、更准确。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10895

arXiv 提交日期: 2026-03-11

reinforcement learning theory agents ergodicity reward processes policy optimization markov chains trajectory performance

强化学习中的遍历性 / Ergodicity in reinforcement learning

1️⃣ 一句话总结

这篇论文指出，当强化学习中的奖励过程不具备遍历性时，传统的期望值优化目标无法保证单个智能体的长期表现，并探讨了解决这一问题的现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10521

arXiv 提交日期: 2026-03-11

llm model training model evaluation instruction hierarchy safety robustness reinforcement learning adversarial training

IH挑战：一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为IH-Challenge的训练数据集，专门用来训练大语言模型学会在接收到相互冲突的指令时，能按照预设的优先级（如系统指令高于用户指令）做出正确响应，从而有效抵御恶意攻击并提升模型的安全性，实验表明使用该数据集训练能显著提升模型在这方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10678

arXiv 提交日期: 2026-03-11

systems model training machine learning surrogate modeling magnetohydrodynamics nuclear fusion recurrent neural networks dimensionality reduction

基于参数化浅层循环解码器网络的核聚变代理模型：在磁流体动力学中的应用 / Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

1️⃣ 一句话总结

本研究提出了一种名为SHRED的智能数据驱动方法，它仅需少数几个传感器的温度读数，就能高效、准确地重建核聚变装置中复杂的磁流体动力学全状态，为实时监控和控制提供了低成本的计算方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10731

arXiv 提交日期: 2026-03-11

model evaluation machine learning theory uncertainty quantification model calibration conformal prediction monte carlo dropout reliability

超越准确率：卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

1️⃣ 一句话总结

这篇论文通过比较两种不确定性估计方法，指出在评估深度学习模型时，除了关注预测准确率，还必须重视模型预测的可靠性和校准程度，这对于高风险决策至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10400

1️⃣ 一句话总结

arXiv ID: 2603.10877

1️⃣ 一句话总结

arXiv ID: 2603.10477

1️⃣ 一句话总结

arXiv ID: 2603.10724

1️⃣ 一句话总结

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2603.11041

1️⃣ 一句话总结

arXiv ID: 2603.10895

1️⃣ 一句话总结

arXiv ID: 2603.10521

1️⃣ 一句话总结

arXiv ID: 2603.10678

1️⃣ 一句话总结

arXiv ID: 2603.10731

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10400 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10477 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11041 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10731 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10400

arXiv ID: 2603.10877

arXiv ID: 2603.10477

arXiv ID: 2603.10724

arXiv ID: 2603.10990

arXiv ID: 2603.11041

arXiv ID: 2603.10895

arXiv ID: 2603.10521

arXiv ID: 2603.10678

arXiv ID: 2603.10731