arXiv最新AI论文速览速学

🔍

标签: #synthetic data generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Disparate Impact in Synthetic Data Generation 06-12

arXiv ID: 2606.13105

arXiv 提交日期: 2026-06-11

machine learning data model evaluation fairness disparate impact synthetic data generation differential privacy probabilistic graphical models

合成数据生成中的差异性影响 / Disparate Impact in Synthetic Data Generation

1️⃣ 一句话总结

这篇论文重新探讨了合成数据生成中的公平性问题，指出当合成数据与真实数据分布一致时，才能避免对不同敏感群体产生差异性影响，并分析了导致差异的原因及一种通过分组建模来改善公平性的策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19394

arXiv 提交日期: 2026-05-19

natural language processing llm model training synthetic data generation instruction tuning question-answering pairs domain adaptation embedding similarity

EmbGen：利用重组语料库进行教学 / EmbGen: Teaching with Reassembled Corpora

1️⃣ 一句话总结

本文提出了一种名为EmbGen的新方法，通过将领域文本拆解成实体与描述，再基于语义相似度重新组合这些片段，从而自动生成高质量、多样化的问答训练数据，帮助小型AI模型更高效地学习专业领域的知识，尤其适用于内容复杂多样的场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26633

arXiv 提交日期: 2026-04-29

computer vision machine learning model training defect detection synthetic data generation diffusion models industrial inspection data augmentation

SynSur：面向工业表面缺陷生成与检测的端到端合成管线 / SynSur: An end-to-end generative pipeline for synthetic industrial surface defect generation and detection

1️⃣ 一句话总结

该论文提出了一种端到端的合成缺陷生成与标注管线，利用视觉语言模型、扩散模型和图像修复技术自动生成逼真的工业表面缺陷样本，实验表明这些合成数据虽无法替代真实数据，但能在真实稀缺数据上补充训练，小幅提升检测性能，并具备跨工业领域的迁移潜力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18226

arXiv 提交日期: 2026-04-20

natural language processing llm data synthetic data generation sentiment analysis multilingual nlp backtranslation privacy preservation

模型在困境中：针对法语合成社交媒体数据的情绪分析 / Model in Distress: Sentiment Analysis on French Synthetic Social Media

1️⃣ 一句话总结

这篇论文提出了一种通用的合成数据生成方法，通过反向翻译等技术，仅用少量初始数据就生成了大量法语社交媒体文本，成功训练出能准确识别用户不满情绪的模型，同时解决了标注成本高、多语言数据稀缺和用户隐私保护的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14969

arXiv 提交日期: 2026-04-16

llm model training agents coevolution model merging open-ended learning capability discovery synthetic data generation

通过任务与能力协同演化发现新型大语言模型专家 / Discovering Novel LLM Experts via Task-Capability Coevolution

1️⃣ 一句话总结

这篇论文提出了一种名为AC/DC的新框架，它通过让大语言模型和自然语言任务在同一个系统中协同进化，自动发现并培养出具备多样化、新颖能力且效率更高的模型，为持续提升AI能力开辟了一条自动化新路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07776

arXiv 提交日期: 2026-04-09

llm agents model training web agents knowledge distillation synthetic data generation supervised fine-tuning agent evaluation

网络智能体能力的结构化蒸馏实现泛化 / Structured Distillation of Web Agent Capabilities Enables Generalization

1️⃣ 一句话总结

这篇论文提出了一种名为‘智能体即标注员’的结构化框架，它利用前沿大语言模型作为‘老师’自动生成高质量的网络操作轨迹数据，并以此训练一个更小、可本地部署的‘学生’模型，使其在多种网页导航任务上的性能超越了多个知名的闭源大模型，并展现出良好的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28763

arXiv 提交日期: 2026-03-30

computer vision model training data human pose estimation diffusion models synthetic data generation 3d mesh annotation dataset creation

PoseDreamer：基于扩散模型的可扩展且逼真的人体数据生成流程 / PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一个名为PoseDreamer的新流程，它利用先进的扩散模型自动生成大量既逼真又带有精确3D人体姿态标注的合成图像数据，从而有效解决了3D人体姿态估计任务中真实数据标注困难和传统合成数据不够逼真的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25489

arXiv 提交日期: 2026-03-26

llm natural language processing machine learning low-resource machine translation data augmentation synthetic data generation language varieties bleu evaluation

大语言模型翻译不对称性作为数据增强因素：以6种罗曼什语变体为例的研究 / Translation Asymmetry in LLMs as a Data Augmentation Factor: A Case Study for 6 Romansh Language Varieties

1️⃣ 一句话总结

这篇论文发现，对于像罗曼什语这样包含多个变体的低资源语言，利用大语言模型进行数据增强时，必须根据源语言和目标语言之间的资源丰度差异来选择正确的翻译方向，而不是简单地从高资源语言生成数据，这种方法显著提升了最低资源变体的翻译质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24518

arXiv 提交日期: 2026-03-25

llm model training machine learning knowledge distillation fine-tuning model transfer parameter efficient fine-tuning synthetic data generation

TuneShift-KD：面向微调模型的知识蒸馏与迁移 / TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

1️⃣ 一句话总结

这篇论文提出了一种名为TuneShift-KD的新方法，它能在不依赖原始专业数据的情况下，通过对比微调模型和基础模型的困惑度差异，自动识别并蒸馏出专业领域的知识，然后利用少量代表性提示生成合成数据集，从而将知识高效迁移到新的预训练模型中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24132

arXiv 提交日期: 2026-03-25

medical llm natural language processing medical dialogue dataset multilingual synthetic data generation parameter-efficient fine-tuning healthcare accessibility

MedAidDialog：一个用于普惠医疗的多语言多轮医疗对话数据集 / MedAidDialog: A Multilingual Multi-Turn Medical Dialogue Dataset for Accessible Healthcare

1️⃣ 一句话总结

这篇论文创建了一个覆盖七种语言的多轮真实医疗对话数据集，并基于此开发了一个能在普通设备上运行的轻量级AI医疗助手，旨在通过模拟医患问诊来帮助医疗资源匮乏地区的用户进行初步病情咨询。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13105

1️⃣ 一句话总结

arXiv ID: 2605.19394

1️⃣ 一句话总结

arXiv ID: 2604.26633

1️⃣ 一句话总结

arXiv ID: 2604.18226

1️⃣ 一句话总结

arXiv ID: 2604.14969

1️⃣ 一句话总结

arXiv ID: 2604.07776

1️⃣ 一句话总结

arXiv ID: 2603.28763

1️⃣ 一句话总结

arXiv ID: 2603.25489

1️⃣ 一句话总结

arXiv ID: 2603.24518

1️⃣ 一句话总结

arXiv ID: 2603.24132

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13105 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19394 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26633 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18226 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14969 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24518 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24132 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13105

arXiv ID: 2605.19394

arXiv ID: 2604.26633

arXiv ID: 2604.18226

arXiv ID: 2604.14969

arXiv ID: 2604.07776

arXiv ID: 2603.28763

arXiv ID: 2603.25489

arXiv ID: 2603.24518

arXiv ID: 2603.24132