arXiv最新AI论文速览速学

🔍

标签: #low-resource languages ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 40 72小时内新更新论文 72h更新 139 最新: Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages 04-21

arXiv ID: 2604.18204

arXiv 提交日期: 2026-04-20

audio natural language processing model evaluation automatic speech recognition low-resource languages phoneme-level analysis endangered languages speech data

难以被听清：针对音系复杂、资源匮乏濒危语言的音素级自动语音识别分析 / Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages

1️⃣ 一句话总结

这篇论文通过分析两种濒危高加索语言的少量语音数据发现，在资源极度匮乏的情况下，自动语音识别的错误主要源于数据不足而非语言本身的复杂性，并且通过引入针对性的音素词汇表可以显著提升识别效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25189

arXiv 提交日期: 2026-03-26

natural language processing data llm dialectal nlp resource catalog basque dialects data adaptation low-resource languages

巴斯克语方言资源目录：在线语料集与标准语至方言的适配 / A Catalog of Basque Dialectal Resources: Online Collections and Standard-to-Dialectal Adaptations

1️⃣ 一句话总结

这篇论文为了解决巴斯克语方言自然语言处理中数据稀缺的问题，系统性地整理并创建了一个包含在线原生方言数据和标准语到方言的适配数据的资源目录，为相关研究提供了重要的数据基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25222

arXiv 提交日期: 2026-03-26

natural language processing machine learning model evaluation machine translation low-resource languages evaluation metrics cross-lingual transfer tokenization

翻译还是背诵？为极低资源语言机器翻译的评估分数进行校准 / Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages

1️⃣ 一句话总结

这篇论文提出了一套名为FRED的难度度量指标，用于揭示和校准极低资源语言机器翻译评估中因数据泄露和模型预训练偏差导致的分数虚高问题，从而为该领域提供更透明可靠的评估基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24307

arXiv 提交日期: 2026-03-25

natural language processing machine learning data machine translation parallel corpus low-resource languages indic languages dataset benchmarking

Samasāmayik：一个用于印地语-梵语机器翻译的平行数据集 / Samasāmayik: A Parallel Dataset for Hindi-Sanskrit Machine Translation

1️⃣ 一句话总结

这篇论文发布了一个名为Samasāmayik的大规模、新颖的印地语-梵语平行数据集，该数据集专注于当代内容，并通过实验证明它能显著提升机器翻译模型在相关领域的性能，为低资源印度语言翻译提供了宝贵的新资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19223

arXiv 提交日期: 2026-03-19

llm natural language processing model training multilingual embeddings model efficiency knowledge distillation mteb benchmark low-resource languages

F2LLM-v2：面向多语言世界的包容、高性能且高效的嵌入模型 / F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

1️⃣ 一句话总结

这篇论文提出了一个名为F2LLM-v2的多语言嵌入模型系列，它通过创新的训练方法在支持200多种语言的同时，实现了从高到低不同计算资源需求下的高性能表现，旨在让AI技术更包容地服务于全球各种语言。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15130

arXiv 提交日期: 2026-03-16

natural language processing llm model evaluation indirect question answering multilingual corpora pragmatic understanding low-resource languages transformer models

英语、德语和巴伐利亚语中的间接问答：一项对高资源和低资源语言均具挑战性的任务 / Indirect Question Answering in English, German and Bavarian: A Challenging Task for High- and Low-Resource Languages Alike

1️⃣ 一句话总结

这篇论文通过构建包含英语、标准德语和巴伐利亚方言的间接问答数据集，发现即使使用先进的AI模型，准确理解日常交流中常见的间接回答意图仍是一项非常困难的任务，并且当前AI模型尚不具备生成高质量相关数据的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14782

arXiv 提交日期: 2026-03-16

llm natural language processing data information asymmetry low-resource languages question answering wikipedia cultural coverage

语言变体间的信息不对称：一项关于粤语-普通话与巴伐利亚语-德语的问答案例研究 / Information Asymmetry across Language Varieties: A Case Study on Cantonese-Mandarin and Bavarian-German QA

1️⃣ 一句话总结

这项研究发现，当知识仅存在于地方语言（如粤语或巴伐利亚语）的维基百科版本中时，大语言模型往往无法回答相关问题，这揭示了当前AI模型在文化包容性和信息覆盖面上存在显著缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14779

arXiv 提交日期: 2026-03-16

audio natural language processing data speech recognition low-resource languages dataset creation data preprocessing vietnamese asr

越南语自动语音识别：一项回顾性研究 / Vietnamese Automatic Speech Recognition: A Revisit

1️⃣ 一句话总结

本研究针对越南语等资源稀缺语言，开发了一个通用的数据整合与处理流程，从多个开源渠道构建了一个高质量、带时间戳的500小时语音数据集，为训练和评估先进的语音识别模型奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14873

arXiv 提交日期: 2026-03-16

natural language processing machine learning data machine translation low-resource languages multilingual models corpus creation neural machine translation

开发用于数字化包容的英语-埃菲克语语料库及机器翻译系统 / Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

1️⃣ 一句话总结

本研究通过构建一个社区整理的小型双语语料库，成功训练出适用于低资源语言埃菲克语的机器翻译模型，证明了利用有限数据开发实用翻译工具是可行的，并强调了包容性数据实践对促进公平自然语言处理的重要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14210

arXiv 提交日期: 2026-03-15

natural language processing data systems language documentation crowdsourcing community governance low-resource languages digital preservation

瓦瓦纳吉：巴布亚新几内亚胡拉语社区自主运营的文档记录平台 / Vavanagi: a Community-run Platform for Documentation of the Hula Language in Papua New Guinea

1️⃣ 一句话总结

这篇论文介绍了一个名为‘瓦瓦纳吉’的、完全由社区自主发起、设计和管理的平台，它通过众包翻译和录音的方式，成功记录和保存了巴布亚新几内亚约有1万人使用的胡拉语，并建立了一个衡量社区参与度的多层级框架，展示了语言技术如何以社区为主导的方式连接城乡成员、维系代际传承和保护文化遗产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.18204

1️⃣ 一句话总结

arXiv ID: 2603.25189

1️⃣ 一句话总结

arXiv ID: 2603.25222

1️⃣ 一句话总结

arXiv ID: 2603.24307

1️⃣ 一句话总结

arXiv ID: 2603.19223

1️⃣ 一句话总结

arXiv ID: 2603.15130

1️⃣ 一句话总结

arXiv ID: 2603.14782

1️⃣ 一句话总结

arXiv ID: 2603.14779

1️⃣ 一句话总结

arXiv ID: 2603.14873

1️⃣ 一句话总结

arXiv ID: 2603.14210

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.18204 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25189 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25222 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24307 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14782 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14779 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14210 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.18204

arXiv ID: 2603.25189

arXiv ID: 2603.25222

arXiv ID: 2603.24307

arXiv ID: 2603.19223

arXiv ID: 2603.15130

arXiv ID: 2603.14782

arXiv ID: 2603.14779

arXiv ID: 2603.14873

arXiv ID: 2603.14210