arXiv最新AI论文速览速学

🔍

标签: #efficient inference ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning 03-16

arXiv ID: 2602.12123

arXiv 提交日期: 2026-02-12

llm model training natural language processing demonstration selection in-context learning meta-learning intent classification efficient inference

Meta-Sel：通过监督元学习实现上下文学习中高效演示样本选择 / Meta-Sel: Efficient Demonstration Selection for In-Context Learning via Supervised Meta-Learning

1️⃣ 一句话总结

这篇论文提出了一种名为Meta-Sel的轻量级方法，它通过监督元学习快速为每个查询问题自动挑选出最合适的几个示例样本，从而显著提升上下文学习的效果，且无需调用大模型或进行复杂计算。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09438

arXiv 提交日期: 2026-02-10

llm model evaluation natural language processing self-consistency efficient inference difficulty estimation activation analysis decoding strategy

突破预采样障碍：基于激活信息感知难度的自一致性方法 / Breaking the Pre-Sampling Barrier: Activation-Informed Difficulty-Aware Self-Consistency

1️⃣ 一句话总结

这篇论文提出了一种名为ACTSC的新方法，它通过分析大语言模型内部的神经元激活信号来智能判断问题的难度，从而动态调整推理路径的生成数量，在保持答案准确性的同时，显著降低了自一致性解码策略的计算开销，且无需预先采样。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08240

arXiv 提交日期: 2026-02-09

audio model training machine learning speech emotion recognition spiking neural networks efficient inference self-supervised learning parameter-efficient tuning

PTS-SNN：一种用于高效语音情感识别的提示调优时序移位脉冲神经网络 / PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition

1️⃣ 一句话总结

这篇论文提出了一种名为PTS-SNN的新型高效神经网络模型，它通过创新的提示调优和时序移位技术，成功地将节能的脉冲神经网络与强大的预训练语音模型结合，从而在保持高精度的同时，大幅降低了语音情感识别任务的计算成本和能耗，使其更适合在手机等资源有限的设备上运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03537

arXiv 提交日期: 2026-02-03

model training llm systems model quantization post-training quantization efficient inference multi-precision models large language models

MatGPTQ：一种精确高效的训练后嵌套量化方法 / MatGPTQ: Accurate and Efficient Post-Training Matryoshka Quantization

1️⃣ 一句话总结

这篇论文提出了一种名为MatGPTQ的新方法，它只需一次操作就能将一个大型语言模型压缩成单一、可灵活切分的量化版本，使得同一个模型文件可以根据不同的设备性能需求，在运行时动态调整精度，从而在保持高精度模型性能的同时，大幅提升了低精度下的运行效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03230

arXiv 提交日期: 2026-02-03

multi-modal computer vision model training event-based vision multimodal llm spatiotemporal sparsity efficient inference instruction tuning

EventFlash：迈向高效的事件视觉多模态大语言模型 / EventFlash: Towards Efficient MLLMs for Event-Based Vision

1️⃣ 一句话总结

这篇论文提出了一种名为EventFlash的高效新模型，它通过智能压缩事件流数据中的冗余时空信息，在保持良好感知能力的同时，大幅提升了事件视觉大模型的运行速度，使其更适合处理高速、弱光场景下的长序列任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03216

arXiv 提交日期: 2026-02-03

llm model training systems sparse attention long-context inference efficient inference token selection attention acceleration

令牌稀疏注意力：通过交错令牌选择实现高效的长上下文推理 / Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

1️⃣ 一句话总结

这篇论文提出了一种名为‘令牌稀疏注意力’的新方法，它通过动态、轻量地筛选出每个注意力头中重要的令牌来压缩计算，从而在保持模型准确率的同时，显著提升了处理超长文本时的推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03060

arXiv 提交日期: 2026-02-03

multi-modal model evaluation natural language processing vision-language models token pruning spatial reasoning rotary position embeddings efficient inference

IVC-Prune：揭示LVLM中的隐式视觉坐标以实现视觉令牌剪枝 / IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning

1️⃣ 一句话总结

本文提出了一种名为IVC-Prune的新方法，通过发现并保留对空间推理至关重要的‘隐式视觉坐标’令牌，在无需额外训练的情况下，将大型视觉语言模型处理高分辨率图像时的视觉令牌数量减少约一半，同时保持甚至提升了模型在多种任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.23184

arXiv 提交日期: 2026-01-30

llm natural language processing model training latent reasoning chain-of-thought variational autoencoder multi-modal reasoning efficient inference

ReGuLaR：基于渲染思维链引导的变分潜在推理 / ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

1️⃣ 一句话总结

这篇论文提出了一种名为ReGuLaR的新方法，它通过将思维链转化为图像来引导和压缩推理过程，从而让大语言模型在保持高准确率的同时，大幅减少了计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21314

arXiv 提交日期: 2026-01-29

computer vision model training aigc 3d mesh generation autoregressive model efficient inference geometric consistency latent modeling

HiFi-Mesh：通过紧凑自回归依赖实现高保真高效三维网格生成 / HiFi-Mesh: High-Fidelity Efficient 3D Mesh Generation via Compact Autoregressive Dependence

1️⃣ 一句话总结

这篇论文提出了一种名为LANE的新方法，通过引入紧凑的自回归依赖关系和创新的自适应计算图重构策略，在生成高质量、细节丰富的三维网格模型时，相比现有方法能处理长6倍的序列并大幅提升生成速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18130

arXiv 提交日期: 2026-01-26

llm agents systems mixture-of-agents dynamic routing efficient inference model selection cost reduction

RouteMoA：无需预推理的动态路由提升高效混合智能体性能 / RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

1️⃣ 一句话总结

这篇论文提出了一种名为RouteMoA的高效混合智能体框架，它通过一个轻量级评分器预先筛选模型，并结合评估与排名机制动态选择模型，从而在保持性能的同时大幅降低了计算成本和延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.12123

1️⃣ 一句话总结

arXiv ID: 2602.09438

1️⃣ 一句话总结

arXiv ID: 2602.08240

1️⃣ 一句话总结

arXiv ID: 2602.03537

1️⃣ 一句话总结

arXiv ID: 2602.03230

1️⃣ 一句话总结

arXiv ID: 2602.03216

1️⃣ 一句话总结

arXiv ID: 2602.03060

1️⃣ 一句话总结

arXiv ID: 2601.23184

1️⃣ 一句话总结

arXiv ID: 2601.21314

1️⃣ 一句话总结

arXiv ID: 2601.18130

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.12123 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09438 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08240 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03537 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03216 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03060 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.23184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21314 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18130 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.12123

arXiv ID: 2602.09438

arXiv ID: 2602.08240

arXiv ID: 2602.03537

arXiv ID: 2602.03230

arXiv ID: 2602.03216

arXiv ID: 2602.03060

arXiv ID: 2601.23184

arXiv ID: 2601.21314

arXiv ID: 2601.18130