arXiv ID:
2603.07929
arXiv 提交日期: 2026-03-09
一种用于数学表达式识别的混合视觉Transformer方法 / A Hybrid Vision Transformer Approach for Mathematical Expression Recognition
1️⃣ 一句话总结
这篇论文提出了一种结合二维位置编码的混合视觉Transformer模型,通过改进的解码器跟踪注意力历史,有效解决了数学表达式识别中因二维结构和符号大小不一带来的难题,并在公开数据集上取得了超越现有最佳方法的性能。