arXiv最新AI论文速览速学

🔍

标签: #data preprocessing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 51 72小时内新更新论文 72h更新 145 最新: Vietnamese Automatic Speech Recognition: A Revisit 03-17

arXiv ID: 2603.14779

arXiv 提交日期: 2026-03-16

audio natural language processing data speech recognition low-resource languages dataset creation data preprocessing vietnamese asr

越南语自动语音识别：一项回顾性研究 / Vietnamese Automatic Speech Recognition: A Revisit

1️⃣ 一句话总结

本研究针对越南语等资源稀缺语言，开发了一个通用的数据整合与处理流程，从多个开源渠道构建了一个高质量、带时间戳的500小时语音数据集，为训练和评估先进的语音识别模型奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04905

arXiv 提交日期: 2026-03-05

systems data general data preprocessing deterministic workflow fuzzy banding cost analysis reproducibility

用于从提取记录生成生均成本报告的确定性预处理与可解释模糊分带方法 / Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

1️⃣ 一句话总结

这篇论文提出了一套自动化的数据处理流程，能够将原始的行政数据表格确定性地转化为生均成本报告，并通过一种清晰易懂的“模糊分带”方法，将成本自动标记为“高、中、低”，为教育管理和决策提供直观支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22143

arXiv 提交日期: 2026-02-25

medical multi-modal model training medical vision-language pretraining text normalization structured reports data preprocessing radiology

MedTri：一个用于结构化医学报告规范化以增强视觉语言预训练的平台 / MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

1️⃣ 一句话总结

这篇论文提出了一个名为MedTri的平台，它能将格式不一的原始医学报告自动整理成统一的结构化格式，从而为医学影像的AI模型提供更清晰、更相关的文本指导，有效提升了模型的训练效果和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19548

arXiv 提交日期: 2026-02-23

llm data natural language processing html-to-text extraction pretraining data web content data preprocessing benchmark evaluation

超越单一提取器：重新思考用于大语言模型预训练的HTML到文本提取方法 / Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

1️⃣ 一句话总结

这篇论文研究发现，在构建大语言模型预训练数据集时，对所有网页使用单一的文本提取方法会浪费大量有用内容，而结合多种提取器能显著增加数据量并提升模型在表格、代码等结构化任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14779

1️⃣ 一句话总结

arXiv ID: 2603.04905

1️⃣ 一句话总结

arXiv ID: 2602.22143

1️⃣ 一句话总结

arXiv ID: 2602.19548

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14779 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04905 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19548 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14779

arXiv ID: 2603.04905

arXiv ID: 2602.22143

arXiv ID: 2602.19548