arXiv最新AI论文速览速学

🔍

标签: #multilingual ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages 06-12

arXiv ID: 2606.13572

arXiv 提交日期: 2026-06-11

medical multi-modal multi-agents multilingual medical reasoning low-resource languages dataset question answering

ArogyaSutra：面向印度语言多模态医学推理的多智能体框架 / ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

1️⃣ 一句话总结

本文提出一个名为ArogyaSutra的多智能体框架，结合大规模多语言医学数据集，解决了当前AI在印度农村等低资源环境下无法有效处理患者用本地语言描述的医疗问题（如结合影像）的困境，从而提升多语言医疗推理的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26070

arXiv 提交日期: 2026-05-25

llm natural language processing data annotation multilingual speaker attributes human-llm collaboration benchmark

谁说的：基于人机协作的多语言文本说话人属性分类标注方法 / WhoSaidIt: Human-LLM Collaborative Annotation for Text-Based Multilingual Speaker-Attribute Classification

1️⃣ 一句话总结

本文提出一种人类与大语言模型协作的标注框架，通过迭代对话让模型提炼专家标注理由、并针对分歧样本重点修正，从而在资源有限的情况下更稳定地为多语言文本中的说话人属性（如性别、社会身份等）打标签，并构建了涵盖9种属性的多语言数据集WhoSaidIt，验证了该方法能有效捕捉跨语言标注差异，同时揭示了大模型在此类任务中的能力与局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25360

arXiv 提交日期: 2026-05-25

llm natural language processing multilingual reinforcement learning policy optimization language routing cross-lingual

为多语言策略优化学习路由语言 / Learning to Route Languages for Multilingual Policy Optimization

1️⃣ 一句话总结

本文提出了一种名为语言路由策略优化的新方法，通过将语言视为可选择的变量，并利用多臂老虎机算法动态决定在强化学习中探索哪些语言，从而在有限的计算资源下更有效地利用多语言数据提升大模型的跨语言表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25846

arXiv 提交日期: 2026-05-25

llm model training model merging multilingual pre-training monolingual interference

预训练中多语言能力的模型融合局限性研究 / On the Limits of Model Merging for Multilinguality in Pre-Training

1️⃣ 一句话总结

本文通过实验发现，将针对不同语言单独预训练的模型直接合并，会导致性能急剧下降，原因是不同语言模型的内部表示差异过大，相互干扰；而混合多语言数据训练才是保持多语言能力的可靠方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.23036

arXiv 提交日期: 2026-05-21

llm machine learning sparse autoencoders steering multilingual mechanistic interpretability

多语言引导的设计原则：多语言稀疏自编码器与层次选择原理 / Multilingual Steering by Design: Multilingual Sparse Autoencoders and Principled Layer Selection

1️⃣ 一句话总结

本文提出了一种基于多语言数据的稀疏自编码器训练方法，并结合一种新的分层选择规则，显著提升了大型语言模型在多语言场景下语言控制的可解释性和生成质量，为解决跨语言任务中的可靠引导问题提供了理论指导和实践方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21227

arXiv 提交日期: 2026-05-20

llm natural language processing benchmark lexical borrowing neology low-resource languages knowledge graph multilingual

大语言模型是否了解卢森堡语的借词？——探针法评测低资源多语言模型中的词汇新词现象 / Do LLMs Know What Luxembourgish Borrows? Probing Lexical Neology in Low-Resource Multilingual Models

1️⃣ 一句话总结

本文通过构建一个基于卢森堡语新闻语料的借词基准数据集LexNeo-Bench，测试了多种多语言大模型识别外来词的能力，发现直接提问时模型表现较差，而引入包含源语言、构词模式等信息的语言知识图谱后，借词分类准确率大幅提升至71-81%，但识别创新性新词仍然困难。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15886

arXiv 提交日期: 2026-05-15

multi-modal llm data political communication topic modeling russian government multilingual dataset

俄罗斯内外政策演讲中的链接多模态数据 / Linked Multi-Model Data on Russian Domestic and Foreign Policy Speeches

1️⃣ 一句话总结

该论文构建了一个包含俄罗斯政府高层数十年演讲文本、图片及元数据的多模态、多语言数据集，通过独特的标识和专家校验，为分析威权政治传播及社会科学与大型语言模型应用提供了宝贵资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13084

arXiv 提交日期: 2026-05-13

machine learning audio meta-learning spoken word classification multilingual few-shot learning generative model

语言对口语词汇分类有影响吗？一种多语言生成式元学习方法 / Does language matter for spoken word classification? A multilingual generative meta-learning approach

1️⃣ 一句话总结

本文通过对比单语言、双语言和多语言模型在口语词汇分类任务上的表现，发现多语言模型性能虽然最好，但语言数量的增加对性能提升效果有限，而训练过程中看到的独特数据时长才是更关键的影响因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13429

arXiv 提交日期: 2026-05-13

llm natural language processing model training tokenization vocabulary adaptation token alignment multilingual knowledge distillation

TokAlign++：通过更好的词元对齐推进词汇自适应 / TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

1️⃣ 一句话总结

论文提出了一种名为TokAlign++的方法，通过将原始词汇和目标词汇视为两种语言并学习双向词元对齐词典，从而高效地调整大语言模型的词汇表，显著提升文本压缩率、保留模型能力，并使得不同模型之间的知识蒸馏更加有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12623

arXiv 提交日期: 2026-05-12

machine learning natural language processing benchmark document understanding multilingual ocr low-resource languages direct preference optimization

DocAtlas：跨越80多种语言的多语言文档理解 / DocAtlas: Multilingual Document Understanding Across 80+ Languages

1️⃣ 一句话总结

DocAtlas提出了一种无需依赖现有模型标注、通过差异化渲染和合成生成技术构建高质量多语言OCR数据集与基准的方法，覆盖82种语言和9个任务，并利用直接偏好优化（DPO）以渲染生成的真实标签作为正信号，实现了稳定的多语言适配，在领域内和领域外均提升了模型性能，避免了监督微调带来的严重性能下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13572

1️⃣ 一句话总结

arXiv ID: 2605.26070

1️⃣ 一句话总结

arXiv ID: 2605.25360

1️⃣ 一句话总结

arXiv ID: 2605.25846

1️⃣ 一句话总结

arXiv ID: 2605.23036

1️⃣ 一句话总结

arXiv ID: 2605.21227

1️⃣ 一句话总结

arXiv ID: 2605.15886

1️⃣ 一句话总结

arXiv ID: 2605.13084

1️⃣ 一句话总结

arXiv ID: 2605.13429

1️⃣ 一句话总结

arXiv ID: 2605.12623

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13572 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26070 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25360 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25846 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.23036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21227 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15886 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13084 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13429 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12623 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13572

arXiv ID: 2605.26070

arXiv ID: 2605.25360

arXiv ID: 2605.25846

arXiv ID: 2605.23036

arXiv ID: 2605.21227

arXiv ID: 2605.15886

arXiv ID: 2605.13084

arXiv ID: 2605.13429

arXiv ID: 2605.12623