arXiv最新AI论文速览速学

🔍

标签: #word embeddings ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Symmetry in language statistics shapes the geometry of model representations 02-17

arXiv ID: 2602.15029

arXiv 提交日期: 2026-02-16

natural language processing theory model training representation geometry translation symmetry co-occurrence statistics word embeddings latent variables

语言统计中的对称性塑造了模型表征的几何结构 / Symmetry in language statistics shapes the geometry of model representations

1️⃣ 一句话总结

这篇论文发现，语言中词语共现概率的平移对称性（例如，两个月份共现的概率只取决于它们的时间间隔）是导致大语言模型内部表征出现简单几何结构（如月份排成圆形）的根本原因，并且这种结构在数据受到干扰时依然保持稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05734

arXiv 提交日期: 2026-02-05

natural language processing machine learning data word embeddings information retrieval similarity scoring word movers distance semantic search

评估词嵌入在实际信息检索中对相似性评分的影响 / Evaluating the impact of word embeddings on similarity scoring in practical information retrieval

1️⃣ 一句话总结

这篇论文研究发现，在信息检索中，结合词移距离（WMD）与预训练词嵌入（如GloVe）来衡量查询与文档的相似性，比传统方法更准确，能更好地理解语言含义并适用于多种实际场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13253

arXiv 提交日期: 2026-01-19

natural language processing data llm low-resource languages semantic relations dataset generation turkish nlp word embeddings

一种面向低资源语言的大规模语义数据集生成混合协议：以土耳其语语义关系语料库为例 / A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

1️⃣ 一句话总结

这篇论文提出了一种低成本、可扩展的混合方法，成功构建了土耳其语的大规模语义关系数据集，有效解决了低资源语言在自然语言处理中面临的数据稀缺问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.15029

1️⃣ 一句话总结

arXiv ID: 2602.05734

1️⃣ 一句话总结

arXiv ID: 2601.13253

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.15029 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05734 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13253 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.15029

arXiv ID: 2602.05734

arXiv ID: 2601.13253