arXiv最新AI论文速览速学

🔍

标签: #multilingual corpora ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 115 72小时内新更新论文 72h更新 215 最新: Multilingual TinyStories: A Synthetic Combinatorial Corpus of Indic Children's Stories for Training Small Language Models 03-21

arXiv ID: 2603.15130

arXiv 提交日期: 2026-03-16

natural language processing llm model evaluation indirect question answering multilingual corpora pragmatic understanding low-resource languages transformer models

英语、德语和巴伐利亚语中的间接问答：一项对高资源和低资源语言均具挑战性的任务 / Indirect Question Answering in English, German and Bavarian: A Challenging Task for High- and Low-Resource Languages Alike

1️⃣ 一句话总结

这篇论文通过构建包含英语、标准德语和巴伐利亚方言的间接问答数据集，发现即使使用先进的AI模型，准确理解日常交流中常见的间接回答意图仍是一项非常困难的任务，并且当前AI模型尚不具备生成高质量相关数据的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14563

arXiv 提交日期: 2026-03-15

llm data natural language processing synthetic dataset multilingual corpora low-resource languages small language models indic languages

多语言微型故事：一个用于训练小型语言模型的印度语儿童故事合成组合语料库 / Multilingual TinyStories: A Synthetic Combinatorial Corpus of Indic Children's Stories for Training Small Language Models

1️⃣ 一句话总结

这篇论文创建了一个包含17种印度语言、由超过13万篇儿童故事组成的大型合成数据集，专门用于训练和评估资源匮乏语言的小型语言模型，以解决这些语言高质量训练数据稀缺的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18026

arXiv 提交日期: 2026-01-25

natural language processing data benchmark language identification multilingual corpora web data evaluation open dataset

CommonLID：重新评估网络数据上最先进语言识别模型的性能 / CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

1️⃣ 一句话总结

这篇论文提出了一个名为CommonLID的社区共建、人工标注的基准测试集，涵盖109种语言，用于评估网络数据上的语言识别模型，并发现现有评估方法普遍高估了模型在真实网络环境下的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15130

1️⃣ 一句话总结

arXiv ID: 2603.14563

1️⃣ 一句话总结

arXiv ID: 2601.18026

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18026 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15130

arXiv ID: 2603.14563

arXiv ID: 2601.18026