arXiv最新AI论文速览速学

📄

2511.07464

🤖 系统

11-30 17:53

llm model training systems

architecture optimization efficient training attention mechanisms model scaling instruction tuning

📄 论文总结

Motif-2-12.7B 技术报告 / Motif 2 12.7B technical report

1️⃣ 一句话总结

这篇论文介绍了一个名为Motif-2-12.7B的新型高效开源大语言模型，它通过创新的分组差分注意力架构和系统级优化，在有限计算资源下实现了与更大模型相媲美的强大语言理解和指令执行能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.04217

🤖 系统

11-30 17:50

theory model training machine learning

lottery ticket hypothesis attention mechanisms transformer theory neural network pruning theoretical analysis

📄 论文总结

多头注意力机制的强彩票假说 / The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms

1️⃣ 一句话总结

这篇论文证明了在随机初始化的多头注意力网络和Transformer中，无需训练即可找到性能优秀的子网络，从而近似实现任意目标网络的功能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.20822

🤖 系统

11-30 17:45

video generation aigc multi-modal

text-to-video long video generation cinematic narratives multi-shot coherence attention mechanisms

📄 论文总结

HoloCine：电影式多镜头长视频叙事的整体生成 / HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

1️⃣ 一句话总结

这篇论文提出了HoloCine模型，它能够整体生成连贯的多镜头长视频叙事，解决了现有技术只能生成孤立片段的问题，并实现了角色记忆和电影技法的自动运用，推动了从片段合成到自动化电影制作的转变。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.17896

🤖 系统

11-30 17:43

llm systems model training

attention mechanisms long-context training distributed computing benchmark kernel optimization

📄 论文总结

长上下文注意力基准：从内核效率到分布式上下文并行 / Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism

1️⃣ 一句话总结

这篇论文提出了一个统一的评估基准，系统比较了提升长文本训练效率的两种主流方法——优化注意力计算内核和分布式并行策略，为实际应用提供了性能权衡与设计指导。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.14973

🤖 系统

11-30 17:43

llm model training systems

kv cache diffusion models efficient inference attention mechanisms decoding acceleration

📄 论文总结

注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs

1️⃣ 一句话总结

这项研究提出了一种名为弹性缓存的训练免费方法，通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余，在保持生成质量的同时显著提升了解码速度，在多个任务上实现了最高45倍的加速效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.05152

🤖 系统

11-30 17:37

llm model evaluation natural language processing

evaluation robustness in-context learning prompt formatting attention mechanisms delimiter sensitivity

📄 论文总结

一个字符足以决定你的大语言模型评估成败 / A Single Character can Make or Break Your LLM Evals

1️⃣ 一句话总结

这篇论文揭示了大语言模型评估结果会因分隔示例的单个字符（如逗号、换行符等）选择不同而产生巨大波动，甚至能操纵模型排名，并提出了通过提示指定分隔符来提高评估稳健性的方法。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.01817

🤖 系统

11-30 17:35

model training theory systems

attention mechanisms transformer architecture computational efficiency query reduction long sequences

📄 论文总结

稀疏查询注意力（SQA）：一种通过减少查询头实现计算高效的新型注意力机制 / Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction

1️⃣ 一句话总结

这篇论文提出了一种名为稀疏查询注意力的新方法，通过减少查询头的数量直接降低计算复杂度，在长序列处理任务中能提升高达3倍的计算效率，同时基本保持模型性能不变。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.09118

🤖 系统

11-30 17:30

computer vision natural language processing multi-modal

person retrieval cross-modal alignment contrastive learning attention mechanisms dataset creation

📄 论文总结

基于梯度注意力引导的双掩码协同框架实现鲁棒的文本行人检索 / Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

1️⃣ 一句话总结

本研究通过构建大规模高质量行人图像文本数据集WebPerson，并提出一种自适应掩码噪声文本并增强细粒度语义学习的协同框架，显著提升了基于文本的行人检索性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.06461

🤖 系统

11-30 17:29

natural language processing multi-modal model evaluation

vision-language models attention mechanisms visual reasoning contrastive attention training-free enhancement

📄 论文总结

通过对比注意力聚焦：增强视觉语言模型的视觉推理能力 / Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

1️⃣ 一句话总结

这项研究提出了一种无需额外训练的方法CARVE，通过对比视觉语言模型中通用查询和任务特定查询的注意力差异，有效分离图像中的语义信号和视觉噪声，从而在复杂视觉场景下显著提升模型的推理性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.07464

📄 论文总结

1️⃣ 一句话总结

2511.04217

📄 论文总结

1️⃣ 一句话总结

2510.20822

📄 论文总结

1️⃣ 一句话总结

2510.17896

📄 论文总结

1️⃣ 一句话总结

2510.14973

📄 论文总结

1️⃣ 一句话总结

2510.05152

📄 论文总结

1️⃣ 一句话总结

2510.01817

📄 论文总结

1️⃣ 一句话总结

2509.09118

📄 论文总结

1️⃣ 一句话总结

2509.06461

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.07464 📝

📄 论文总结

1️⃣ 一句话总结

2511.04217 📝

📄 论文总结

1️⃣ 一句话总结

2510.20822 📝

📄 论文总结

1️⃣ 一句话总结

2510.17896 📝

📄 论文总结

1️⃣ 一句话总结

2510.14973 📝

📄 论文总结

1️⃣ 一句话总结

2510.05152 📝

📄 论文总结

1️⃣ 一句话总结

2510.01817 📝

📄 论文总结

1️⃣ 一句话总结

2509.09118 📝

📄 论文总结

1️⃣ 一句话总结

2509.06461 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.07464

2511.04217

2510.20822

2510.17896

2510.14973

2510.05152

2510.01817

2509.09118

2509.06461