arXiv最新AI论文速览速学

🔍

标签: #positional encoding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: MetaPoint: Unlocking Precise Spatial Control in Agentic Visual Generation 06-04

arXiv ID: 2603.02874

arXiv 提交日期: 2026-03-03

model training model evaluation theory in-context retrieval hybrid architectures state space models positional encoding length generalization

检索能力探究：Transformer、状态空间模型与混合架构的上下文检索能力 / Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures

1️⃣ 一句话总结

这篇论文通过两项合成检索任务发现，结合Transformer和状态空间模型的混合架构在数据效率和信息密集检索上能媲美甚至超越Transformer，但在位置检索任务上Transformer仍占优，并揭示了不同模型学习位置关联方式的根本差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21735

arXiv 提交日期: 2026-02-25

medical multi-modal model training medical imaging vision-language model self-supervised learning computed tomography positional encoding

SigVLP：用于自监督CT体积自适应表征学习的Sigmoid体积-语言预训练 / SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SigVLP的新方法，它通过创新的位置编码和分块对齐技术，让AI模型能够更灵活、更准确地从不同规格的CT扫描中学习，并建立医学图像与文本描述之间的精细关联，从而在多种医疗AI任务上取得更好效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21052

arXiv 提交日期: 2026-02-24

machine learning model training natural language processing sequential recommendation self-attention positional encoding kernel methods next-item prediction

面向精准下一项推荐的位置感知序列注意力机制 / Position-Aware Sequential Attention for Accurate Next Item Recommendations

1️⃣ 一句话总结

这篇论文提出了一种新的注意力机制，通过一个专门学习位置关系的独立模块来直接调整注意力权重，从而更有效地捕捉用户行为序列中的时间顺序模式，显著提升了下一项推荐的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10551

arXiv 提交日期: 2026-02-11

llm multi-modal model training positional encoding 3d vision causal reasoning multimodal models attention mechanism

C^2ROPE：用于三维大型多模态模型推理的因果连续旋转位置编码 / C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为C^2ROPE的改进位置编码方法，通过同时考虑视觉特征的空间连续性和因果依赖关系，解决了现有三维大模型在处理长序列视觉信息时容易丢失空间细节和忽略早期内容的问题，从而提升了模型在三维场景理解和问答任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08426

arXiv 提交日期: 2026-02-09

llm model training systems attention mechanism efficiency positional encoding sparse attention long context

棱镜：一种基于频谱感知的块稀疏注意力机制 / Prism: Spectral-Aware Block-Sparse Attention

1️⃣ 一句话总结

这篇论文提出了一种名为Prism的新方法，它通过分析注意力信号中的频率成分，巧妙地解决了现有块稀疏注意力机制在识别重要信息块时效率低、精度差的问题，从而在不损失模型准确性的前提下，大幅提升了长文本处理的速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03928

arXiv 提交日期: 2026-01-07

computer vision multi-modal model training ui grounding vision-language models token selection efficient inference positional encoding

FocusUI：通过保留位置信息的视觉标记选择实现高效的用户界面定位 / FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

1️⃣ 一句话总结

这篇论文提出了一种名为FocusUI的新方法，它通过智能地筛选出与用户指令最相关且位置连续的屏幕图像区域，在显著降低计算开销和内存占用的同时，依然能高精度地完成用户界面元素的定位任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01720

arXiv 提交日期: 2026-01-05

video generation model training data first-frame propagation video editing dataset temporal consistency positional encoding

FFP-300K：扩展首帧传播以实现通用视频编辑 / FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

1️⃣ 一句话总结

这篇论文通过构建一个大规模高质量视频数据集（FFP-300K）并设计一种新的自适应框架，解决了现有视频编辑方法依赖繁琐引导的难题，实现了无需额外指引、能同时保持首帧外观和原视频运动的稳定视频编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14391

arXiv 提交日期: 2025-12-16

llm model training natural language processing in-context learning positional encoding attention allocation cognitive load theory context re-positioning

RePo：具有上下文重定位能力的语言模型 / RePo: Language Models with Context Re-Positioning

1️⃣ 一句话总结

这篇论文提出了一种名为RePo的新方法，它通过一个可学习的模块动态调整输入文本中词语的位置编码，从而帮助语言模型更有效地处理复杂或混乱的上下文信息，提升其在长文本、含噪声数据等任务上的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13689

arXiv 提交日期: 2025-12-15

computer vision model training machine learning 3d point cloud transformer architecture positional encoding neural architecture design efficiency optimization

LitePT：更轻便且更强大的点云Transformer / LitePT: Lighter Yet Stronger Point Transformer

1️⃣ 一句话总结

这篇论文提出了一种新的3D点云处理模型，它通过巧妙地在网络浅层使用卷积提取几何细节、在深层使用注意力机制捕捉语义信息，并引入一种无需训练的位置编码来保持空间结构，最终实现了模型参数量、运行速度和内存消耗的大幅降低，同时性能与当前最优模型相当甚至更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07805

arXiv 提交日期: 2025-12-08

natural language processing model training theory positional encoding group theory long-context attention transformer

群表示位置编码 / Group Representational Position Encoding

1️⃣ 一句话总结

这篇论文提出了一个名为GRAPE的统一框架，它利用数学中的群作用理论，将RoPE和ALiBi等主流位置编码方法都纳入其中，为设计长文本模型中的位置信息表示提供了一个更通用、更灵活的理论基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02874

1️⃣ 一句话总结

arXiv ID: 2602.21735

1️⃣ 一句话总结

arXiv ID: 2602.21052

1️⃣ 一句话总结

arXiv ID: 2602.10551

1️⃣ 一句话总结

arXiv ID: 2602.08426

1️⃣ 一句话总结

arXiv ID: 2601.03928

1️⃣ 一句话总结

arXiv ID: 2601.01720

1️⃣ 一句话总结

arXiv ID: 2512.14391

1️⃣ 一句话总结

arXiv ID: 2512.13689

1️⃣ 一句话总结

arXiv ID: 2512.07805

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02874 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21735 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21052 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08426 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03928 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14391 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07805 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02874

arXiv ID: 2602.21735

arXiv ID: 2602.21052

arXiv ID: 2602.10551

arXiv ID: 2602.08426

arXiv ID: 2601.03928

arXiv ID: 2601.01720

arXiv ID: 2512.14391

arXiv ID: 2512.13689

arXiv ID: 2512.07805