arXiv最新AI论文速览速学

🔍

标签: #scaling laws ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization 03-16

arXiv ID: 2603.10379

arXiv 提交日期: 2026-03-11

model training theory systems mixture-of-experts scaling laws compute allocation model architecture sparse models

混合专家模型中专家与注意力模块的最优计算分配：动态模型设计的可扩展法则 / Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

1️⃣ 一句话总结

这篇论文为混合专家模型找到了一个明确的数学公式，可以像调节配方一样，根据总计算量和模型稀疏度，自动确定分配给专家模块和注意力模块的最优计算比例，从而在固定计算预算下设计出性能最好的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08022

arXiv 提交日期: 2026-03-09

llm model training machine learning data mixture scaling laws mixture optimization model capacity performance prediction

容量感知混合定律实现高效大语言模型数据优化 / Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为CAMEL的新方法，它通过一个考虑模型容量和数据混合之间非线性关系的定律，能够用更少的计算成本预测出训练大语言模型的最佳数据组合方案，从而在节省一半优化开销的同时，将模型性能提升高达3%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22962

arXiv 提交日期: 2026-02-26

model training machine learning systems scaling laws weather forecasting data-driven models compute budget model architecture

全球天气模型的缩放定律 / Scaling Laws of Global Weather Models

1️⃣ 一句话总结

这篇论文通过分析数据驱动天气模型的训练规律，发现与语言模型不同，天气模型通过增加模型宽度和延长训练时间比单纯堆叠深度更能有效提升预测性能，为优化未来天气模型设计提供了关键指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20677

arXiv 提交日期: 2026-02-24

systems model training data spatio-temporal foundation models urban computing zero-shot generalization scaling laws benchmark

UrbanFM：扩展城市时空基础模型 / UrbanFM: Scaling Urban Spatio-Temporal Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为UrbanFM的通用城市时空基础模型，它通过构建大规模数据集、设计新的计算单元和简洁的模型架构，解决了现有城市AI模型局限于特定场景的问题，首次实现了在未见过的城市和任务上出色的零样本泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20159

arXiv 提交日期: 2026-02-23

video benchmark model evaluation video reasoning scaling laws evaluation framework spatiotemporal reasoning emergent generalization

一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite

1️⃣ 一句话总结

这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架，首次系统地研究了视频模型的推理能力，并发现了模型在未见任务上出现泛化能力的早期迹象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16687

arXiv 提交日期: 2026-02-18

audio model training multi-modal audio foundation models scaling laws discrete tokens next-token prediction speech-to-speech translation

通过交织语义、声学和文本标记来扩展开放离散音频基础模型 / Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens

1️⃣ 一句话总结

这篇论文提出了一种新的音频基础模型SODA，它通过同时学习音频的语义内容、声学细节和文本信息，能够灵活地处理多种音频生成和跨模态任务，并首次揭示了此类模型的扩展规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15532

arXiv 提交日期: 2026-02-17

llm model evaluation benchmark construct validity latent factor models scaling laws capability measurement performance prediction

量化大语言模型评估中的构念效度 / Quantifying construct validity in large language model evaluations

1️⃣ 一句话总结

这篇论文提出了一种新的‘结构化能力模型’，通过结合潜在因子模型和缩放定律的优点，从大量基准测试结果中提取出可解释且可泛化的模型能力，从而更准确地评估大语言模型的真实水平，避免仅依赖有缺陷的基准分数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15781

arXiv 提交日期: 2026-02-17

machine learning model training data scaling laws jet tagging high energy physics compute optimal data efficiency

用于增强喷注标记的神经缩放定律 / Neural Scaling Laws for Boosted Jet Tagging

1️⃣ 一句话总结

这篇论文研究了在高能物理的喷注分类任务中，模型性能如何随着计算资源、数据量和特征选择的增加而提升的规律，发现增加计算资源可以稳定地将性能推向一个极限，并且使用更底层、信息更丰富的特征可以提高这个性能极限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.13595

arXiv 提交日期: 2026-02-14

theory model evaluation machine learning quantization scaling laws multi-hop reasoning energy efficiency hardware overhead

量化陷阱：打破多步推理中的线性缩放定律 / The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning

1️⃣ 一句话总结

这篇论文发现，在处理需要多步推理的复杂任务时，简单地降低AI模型的计算精度（如从16位降到8位或4位）不仅不会节省能耗，反而会因为硬件转换开销和去量化延迟成为瓶颈，导致总能耗增加和推理准确性下降，从而打破了业界普遍认为的‘精度越低、效率越高’的线性缩放定律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11217

arXiv 提交日期: 2026-02-11

llm model training model evaluation knowledge transfer fine-tuning pretraining scaling laws calibration

魔法相关性：理解从预训练到监督微调的知识迁移 / The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning

1️⃣ 一句话总结

这篇论文通过系统研究发现，大语言模型从预训练到监督微调的知识迁移效果并不稳定，其可靠程度会因任务类型、评估基准和模型规模的不同而产生巨大差异，为如何高效选择和利用数据来训练模型提供了实用指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10379

1️⃣ 一句话总结

arXiv ID: 2603.08022

1️⃣ 一句话总结

arXiv ID: 2602.22962

1️⃣ 一句话总结

arXiv ID: 2602.20677

1️⃣ 一句话总结

arXiv ID: 2602.20159

1️⃣ 一句话总结

arXiv ID: 2602.16687

1️⃣ 一句话总结

arXiv ID: 2602.15532

1️⃣ 一句话总结

arXiv ID: 2602.15781

1️⃣ 一句话总结

arXiv ID: 2602.13595

1️⃣ 一句话总结

arXiv ID: 2602.11217

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10379 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08022 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22962 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20677 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16687 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.13595 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11217 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10379

arXiv ID: 2603.08022

arXiv ID: 2602.22962

arXiv ID: 2602.20677

arXiv ID: 2602.20159

arXiv ID: 2602.16687

arXiv ID: 2602.15532

arXiv ID: 2602.15781

arXiv ID: 2602.13595

arXiv ID: 2602.11217