arXiv最新AI论文速览速学

🔍

标签: #efficient inference ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning 03-16

arXiv ID: 2603.09253

arXiv 提交日期: 2026-03-10

model training natural language processing theory attention mechanisms efficient inference transformers regularization optimization

通过长度感知注意力先验与增益感知训练实现固定测试时成本下的高效推理 / Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

1️⃣ 一句话总结

这篇论文提出了一种在训练时引入长度感知注意力先验和增益感知控制器的方法，使得中小型Transformer模型在推理时无需增加任何计算开销，就能提升处理长序列和噪声数据的能力，从而在保持测试速度不变的情况下提高模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08999

arXiv 提交日期: 2026-03-09

llm model evaluation natural language processing chain-of-thought self-consistency efficient inference uncertainty estimation adaptive sampling

学习何时采样：用于高效大语言模型思维链推理的置信度感知自一致性方法 / Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

1️⃣ 一句话总结

这篇论文提出了一种智能决策框架，通过分析大语言模型单次推理过程中的内部信号，自动判断何时需要额外采样多条推理路径来保证准确性，从而在基本不损失精度的前提下，大幅减少了计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05168

arXiv 提交日期: 2026-03-05

llm model training systems quantization sparsity efficient inference model compression 1.58-bit

稀疏比特网：1.58比特大语言模型天然适用于半结构化稀疏化 / Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

1️⃣ 一句话总结

这篇论文发现，将大语言模型压缩到极低的1.58比特后，它们反而能更好地承受另一种名为‘半结构化稀疏’的压缩技术，两者结合能显著提升模型运行速度且性能损失更小。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03681

arXiv 提交日期: 2026-03-04

multi-modal model training systems token pruning efficient inference multimodal llms visual encoding computational efficiency

EvoPrune：面向高效多模态大语言模型的早期视觉令牌剪枝方法 / EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

1️⃣ 一句话总结

这篇论文提出了一种名为EvoPrune的新方法，它在多模态大模型处理图像或视频的早期阶段就智能地筛选掉不重要的视觉信息块，从而在不明显影响模型性能的前提下，大幅提升了模型的推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20735

arXiv 提交日期: 2026-02-24

llm natural language processing systems retrieval-augmented generation query routing efficient inference competition dynamic retrieval

RMIT-ADM+S团队在NeurIPS 2025 MMU-RAG竞赛中的获奖系统 / RMIT-ADM+S at the MMU-RAG NeurIPS 2025 Competition

1️⃣ 一句话总结

这篇论文介绍了一个名为R2RAG的获奖检索增强生成系统，它通过轻量级组件动态调整检索策略，能在普通消费级GPU上高效处理复杂研究任务，并在竞赛中因出色的设计和资源效率获奖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17664

arXiv 提交日期: 2026-02-19

natural language processing model training model evaluation diffusion language models attention sinks model pruning efficient inference transient attention

面向扩散语言模型的汇点感知剪枝 / Sink-Aware Pruning for Diffusion Language Models

1️⃣ 一句话总结

这篇论文发现扩散语言模型中的注意力汇点并不稳定，并据此提出了一种能自动识别并剪除这些不稳定汇点的新方法，从而在不重新训练模型的情况下，显著提升了模型推理效率与性能的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15030

arXiv 提交日期: 2026-02-16

computer vision model training aigc image generation spherical latent space single-pass generation encoder-decoder efficient inference

基于球面编码器的图像生成 / Image Generation with a Sphere Encoder

1️⃣ 一句话总结

这篇论文提出了一种名为‘球面编码器’的新型图像生成框架，它通过将图像映射到球面空间并直接解码生成图片，仅需一次或数次前向计算就能达到与复杂多步扩散模型相媲美的效果，同时大大降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.13680

arXiv 提交日期: 2026-02-14

llm model training systems long-context modeling memory networks sliding window attention efficient inference test-time training

AllMem：一种以内存为中心的、用于高效长上下文建模的解决方案 / AllMem: A Memory-centric Recipe for Efficient Long-context Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为AllMem的新型混合架构，它通过结合滑动窗口注意力与非线性测试时训练记忆网络，让大语言模型能够高效处理超长文本，在保持高性能的同时大幅降低了计算和内存开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12173

arXiv 提交日期: 2026-02-12

computer vision multi-modal model training vision-language segmentation model compression knowledge distillation text encoder efficient inference

SAM3-LiteText：针对高效视觉语言分割的SAM3文本编码器解剖学研究 / SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation

1️⃣ 一句话总结

这篇论文通过分析大量真实分割提示，发现现有视觉语言分割模型中的文本编码器存在严重冗余，并据此设计了一个轻量化的文本编码框架，在保持分割性能的同时，将模型参数减少了高达88%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11656

arXiv 提交日期: 2026-02-12

multi-modal agents model training token reduction autonomous driving efficient inference multi-modal llm end-to-end systems

SToRM：面向高效端到端自动驾驶的多模态大语言模型监督式令牌缩减框架 / SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

1️⃣ 一句话总结

这篇论文提出了一个名为SToRM的新方法，它能让自动驾驶系统中的多模态大语言模型在显著降低计算成本（最高达30倍）的同时，保持与使用全部视觉数据时同等的驾驶性能，从而解决了现有模型因计算资源需求过高而难以在车辆上高效部署的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09253

1️⃣ 一句话总结

arXiv ID: 2603.08999

1️⃣ 一句话总结

arXiv ID: 2603.05168

1️⃣ 一句话总结

arXiv ID: 2603.03681

1️⃣ 一句话总结

arXiv ID: 2602.20735

1️⃣ 一句话总结

arXiv ID: 2602.17664

1️⃣ 一句话总结

arXiv ID: 2602.15030

1️⃣ 一句话总结

arXiv ID: 2602.13680

1️⃣ 一句话总结

arXiv ID: 2602.12173

1️⃣ 一句话总结

arXiv ID: 2602.11656

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09253 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08999 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05168 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20735 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17664 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15030 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.13680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11656 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09253

arXiv ID: 2603.08999

arXiv ID: 2603.05168

arXiv ID: 2603.03681

arXiv ID: 2602.20735

arXiv ID: 2602.17664

arXiv ID: 2602.15030

arXiv ID: 2602.13680

arXiv ID: 2602.12173

arXiv ID: 2602.11656