arXiv最新AI论文速览速学

🔍

标签: #model training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 35 72小时内新更新论文 72h更新 162 最新: DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer 03-23

arXiv ID: 2603.03040

arXiv 提交日期: 2026-03-03

model training machine learning systems progressive neural networks concept drift time series catastrophic forgetting recurrent neural networks

cPNN：用于演化流式时间序列的连续渐进式神经网络 / cPNN: Continuous Progressive Neural Networks for Evolving Streaming Time Series

1️⃣ 一句话总结

本文提出了一种名为cPNN的连续渐进式神经网络，它能同时处理数据流中的概念漂移和时间依赖性问题，并有效防止神经网络遗忘已学知识，从而快速适应不断变化的数据流。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03084

arXiv 提交日期: 2026-03-03

theory model training machine learning transformers expressive power approximation theory maxout networks piecewise linear functions

关于Transformer网络对Maxout网络和连续分段线性函数的表达能力研究 / On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

1️⃣ 一句话总结

这篇论文证明了Transformer网络在模型复杂度相近的情况下，能够有效逼近Maxout网络和连续分段线性函数，从而继承了ReLU网络的通用逼近能力，并通过分析线性区域的数量定量刻画了其表达能力随深度指数增长的特性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03082

arXiv 提交日期: 2026-03-03

systems theory model training domains of attraction neural network verification nonlinear systems robust invariant sets physics-informed neural networks

离散时间系统的安全鲁棒吸引域：基于集合的表征与可验证的神经网络估计 / Safe and Robust Domains of Attraction for Discrete-Time Systems: A Set-Based Characterization and Certifiable Neural Network Estimation

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过定义在紧集上的价值函数来精确估计非线性不确定系统的安全鲁棒吸引域，并利用嵌入贝尔曼方程的神经网络进行学习，最终通过形式化验证工具获得可验证的估计结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03195

arXiv 提交日期: 2026-03-03

robotics multi-modal model training world models latent motion vision-language-action embodied ai video prediction

世界之链：潜在运动中的世界模型思维 / Chain of World: World Model Thinking in Latent Motion

1️⃣ 一句话总结

这篇论文提出了一种名为CoWVLA的新方法，它通过将视频分解为结构和运动两部分，并让AI模型学习预测连续的运动链，从而更高效地训练机器人视觉-语言-动作模型，使其既能理解世界动态，又保持模型简洁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02785

arXiv 提交日期: 2026-03-03

model training systems machine learning federated learning parameter-efficient fine-tuning vision transformers personalization low-rank adaptation

HiLoRA：用于个性化联邦学习的层次化低秩自适应方法 / HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

1️⃣ 一句话总结

这篇论文提出了一种名为HiLoRA的层次化低秩自适应框架，通过在根、簇、叶三个层级部署适配器，分别学习全局、子组和客户端特定知识，从而在联邦学习中更有效地实现视觉Transformer模型的个性化与泛化能力提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02604

arXiv 提交日期: 2026-03-03

reinforcement learning agents model training multi-agent reinforcement learning collaborative learning heterogeneous agents rollout sharing sample efficiency

异构智能体协同强化学习 / Heterogeneous Agent Collaborative Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为HACRL的新学习范式，让不同类型的人工智能体在训练时互相分享经验、共同进步，但在实际应用时仍能独立工作，从而在保证效率的同时显著提升了所有参与智能体的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03251

arXiv 提交日期: 2026-03-03

llm model training systems speculative decoding inference acceleration parallel verification autoregressive models optimization

推测式推测解码 / Speculative Speculative Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为‘推测式推测解码’的新方法，通过让模型在验证当前预测的同时，提前准备多种可能的后续预测，从而进一步并行化推理过程，将大语言模型的生成速度在现有加速技术基础上再提升最多2倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02882

arXiv 提交日期: 2026-03-03

aigc video generation model training invisible watermarking video diffusion blind extraction causal 3d vae robustness

SIGMark：一种用于视频扩散模型的、支持盲提取的可扩展生成中水印技术 / SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为SIGMark的新方法，它能在AI生成视频的过程中直接嵌入看不见的水印，并且无需存储大量密钥就能高效地检测出来，同时还能有效抵抗视频在时间和空间上的修改，解决了现有技术成本高、不抗干扰的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02599

arXiv 提交日期: 2026-03-03

systems llm model training multi-model serving resource efficiency model disaggregation inference optimization quantization

SUN：共享下一词预测以实现高效的多LLM解耦服务 / SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

1️⃣ 一句话总结

这篇论文提出了一种名为SUN的新方法，通过将大语言模型的解码部分冻结并共享给多个模型使用，显著提升了多模型同时服务时的GPU利用率和系统吞吐量，同时保持了模型的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03226

arXiv 提交日期: 2026-03-03

machine learning theory model training differential privacy optimization stochastic differential equations adaptive methods privacy-utility trade-off

在高隐私设置下自适应方法更优：一个随机微分方程的视角 / Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

1️⃣ 一句话总结

这篇论文通过随机微分方程分析发现，在严格的差分隐私训练中，自适应优化方法（如DP-SignSGD、DP-Adam）因其超参数对隐私级别不敏感而比传统方法（如DP-SGD）更实用，尤其在隐私要求高或噪声大的场景下表现更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03040

1️⃣ 一句话总结

arXiv ID: 2603.03084

1️⃣ 一句话总结

arXiv ID: 2603.03082

1️⃣ 一句话总结

arXiv ID: 2603.03195

1️⃣ 一句话总结

arXiv ID: 2603.02785

1️⃣ 一句话总结

arXiv ID: 2603.02604

1️⃣ 一句话总结

arXiv ID: 2603.03251

1️⃣ 一句话总结

arXiv ID: 2603.02882

1️⃣ 一句话总结

arXiv ID: 2603.02599

1️⃣ 一句话总结

arXiv ID: 2603.03226

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03040 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03084 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03082 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03195 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02785 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03251 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02882 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02599 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03226 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03040

arXiv ID: 2603.03084

arXiv ID: 2603.03082

arXiv ID: 2603.03195

arXiv ID: 2603.02785

arXiv ID: 2603.02604

arXiv ID: 2603.03251

arXiv ID: 2603.02882

arXiv ID: 2603.02599

arXiv ID: 2603.03226