arXiv最新AI论文速览速学

🔍

标签: #model scaling ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: Personal Information Parroting in Language Models 02-28

arXiv ID: 2602.20580

arXiv 提交日期: 2026-02-24

llm model training data privacy memorization personal information data filtering model scaling

语言模型中的个人信息复述 / Personal Information Parroting in Language Models

1️⃣ 一句话总结

这篇论文发现，大语言模型在训练时会记住并精确复述训练数据中的大量个人信息（如邮箱、电话），且模型越大、训练越久，这种隐私泄露风险就越高，因此建议对训练数据进行严格的过滤和匿名化处理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11444

arXiv 提交日期: 2026-02-11

llm natural language processing model evaluation machine translation error detection safety multilingual model scaling

迈向可靠的机器翻译：利用大语言模型扩展关键错误检测与安全性 / Towards Reliable Machine Translation: Scaling LLMs for Critical Error Detection and Safety

1️⃣ 一句话总结

这篇论文研究了如何利用指令微调的大语言模型来检测机器翻译中可能导致事实扭曲或意图反转的关键错误，发现扩大模型规模和采用合适的适应策略能有效提升检测性能，从而有助于构建更安全、可信的多语言信息系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10352

arXiv 提交日期: 2026-02-10

llm model evaluation natural language processing self-interpretation interpretability adapters sparse autoencoders model scaling

从可解释性人工产物中学习自我解释：在向量-标签对上训练轻量级适配器 / Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过给冻结的大型语言模型加装一个极简的“翻译器”（适配器），就能让模型可靠地解释自己的内部工作过程，并且这种方法的效果会随着模型变大而变得更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04118

arXiv 提交日期: 2026-02-04

llm model training theory parameter efficiency reinforcement learning reasoning low-rank adaptation model scaling

用13个参数学习推理 / Learning to Reason in 13 Parameters

1️⃣ 一句话总结

这篇论文提出了一种名为TinyLoRA的新方法，它通过强化学习，仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理，性能接近使用成千上万参数的传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21349

arXiv 提交日期: 2026-01-29

model training machine learning systems mixture-of-experts routing mechanism low-rank lipschitz continuity model scaling

L2R：用于专家混合模型（MoE）的低秩与利普希茨约束路由方法 / L2R: Low-Rank and Lipschitz-Controlled Routing for Mixture-of-Experts

1️⃣ 一句话总结

本文提出了一种名为L2R的新路由框架，通过将专家分配过程转移到共享的低维空间并引入平滑的评分机制，有效解决了专家混合模型中路由不稳定和专家分工不明确的问题，从而显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15745

arXiv 提交日期: 2025-12-10

llm model training natural language processing diffusion language models model scaling knowledge inheritance mixture-of-experts parallel decoding

LLaDA2.0：将扩散语言模型扩展至1000亿参数 / LLaDA2.0: Scaling Up Diffusion Language Models to 100B

1️⃣ 一句话总结

这篇论文提出了一种名为LLaDA2.0的新方法，它能够高效地将现有的大型自回归语言模型转换成参数规模高达1000亿的扩散模型，从而在保持高性能的同时，实现了并行解码和更快的推理速度，并开源了适用于实际部署的模型版本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07464

arXiv 提交日期: 2025-11-07

llm model training systems architecture optimization efficient training attention mechanisms model scaling instruction tuning

Motif-2-12.7B 技术报告 / Motif 2 12.7B technical report

1️⃣ 一句话总结

这篇论文介绍了一个名为Motif-2-12.7B的新型高效开源大语言模型，它通过创新的分组差分注意力架构和系统级优化，在有限计算资源下实现了与更大模型相媲美的强大语言理解和指令执行能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.03276

arXiv 提交日期: 2025-11-05

natural language processing model training machine learning diffusion language models autoregressive models data efficiency pre-training model scaling

扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners

1️⃣ 一句话总结

这项研究发现，在数据有限的情况下，扩散语言模型通过多轮训练能持续超越自回归模型，这得益于其任意顺序建模、密集计算和内置数据增强能力，即使在小规模数据上也能取得优异的下游任务表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14300

arXiv 提交日期: 2025-10-16

robotics multi-modal model training mixture of experts vision-language-action robotic manipulation sparse activation model scaling

专家无需垄断：面向视觉-语言-动作学习的动作专用专家混合模型 / Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

1️⃣ 一句话总结

这篇论文提出了一种名为AdaMoE的智能模型扩展方法，它通过让多个专家模块协作处理机器人任务，而不是单一专家独占，从而在提升性能的同时保持了计算效率，显著提高了机器人在模拟和真实环境中的操作能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08008

arXiv 提交日期: 2025-10-09

llm model training machine learning mixture-of-experts model scaling checkpoint recycling efficient pretraining parameter expansion

循环利用预训练检查点：通过混合专家模型的正交增长实现高效大语言模型预训练 / Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

1️⃣ 一句话总结

这篇论文提出了一种通过扩展已有预训练模型的参数规模来高效复用计算资源的方法，在混合专家模型上实现了深度和宽度的正交增长，相比从头训练在相同计算预算下能显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.20580

1️⃣ 一句话总结

arXiv ID: 2602.11444

1️⃣ 一句话总结

arXiv ID: 2602.10352

1️⃣ 一句话总结

arXiv ID: 2602.04118

1️⃣ 一句话总结

arXiv ID: 2601.21349

1️⃣ 一句话总结

arXiv ID: 2512.15745

1️⃣ 一句话总结

arXiv ID: 2511.07464

1️⃣ 一句话总结

arXiv ID: 2511.03276

1️⃣ 一句话总结

arXiv ID: 2510.14300

1️⃣ 一句话总结

arXiv ID: 2510.08008

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.20580 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10352 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21349 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15745 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07464 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.03276 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14300 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08008 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.20580

arXiv ID: 2602.11444

arXiv ID: 2602.10352

arXiv ID: 2602.04118

arXiv ID: 2601.21349

arXiv ID: 2512.15745

arXiv ID: 2511.07464

arXiv ID: 2511.03276

arXiv ID: 2510.14300

arXiv ID: 2510.08008