arXiv最新AI论文速览速学

🔍

标签: #synthetic data ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Synthetic but Not Realistic: The Evaluation Challenge in Generative Modelling for Structured Electronic Medical Records 06-09

arXiv ID: 2606.08903

arXiv 提交日期: 2026-06-08

medical machine learning model evaluation synthetic data electronic medical records generative models evaluation framework clinical validity

合成但非真实：结构化电子病历生成建模中的评估挑战 / Synthetic but Not Realistic: The Evaluation Challenge in Generative Modelling for Structured Electronic Medical Records

1️⃣ 一句话总结

该论文指出当前评估合成电子病历数据质量的方法（如统计相似性和预测准确性）存在缺陷，并提出了一套基于流行病学的多维评估框架（包括描述真实性、临床效用和结构有效性），通过实验揭示即使是分布匹配良好的生成模型也可能扭曲子群体关系和因果效应，从而误导临床结论。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09479

arXiv 提交日期: 2026-06-08

computer vision machine learning aigc optical music recognition synthetic data domain adaptation handwritten music cultural heritage

利用合成数据实现真实手稿的光学乐谱识别 / Optical Music Recognition for Real-World Manuscripts with Synthetic Data

1️⃣ 一句话总结

本文针对真实世界中的手写乐谱（如图书馆珍藏手稿）由于视觉风格多样且缺乏训练数据而导致现有光学乐谱识别系统失效的问题，提出了一种结合合成图像和少量真实标注数据的低成本解决方案，显著提升了识别效果，向保护音乐文化遗产的目标迈进了一大步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06360

arXiv 提交日期: 2026-06-04

agents llm medical spread simulation agent-based modeling spatial epidemiology synthetic data behavioral dynamics

基于大语言模型决策的传染病传播模拟 / An Infectious Disease Spread Simulation Based on Large Language Model Decision Making

1️⃣ 一句话总结

本文提出一个结合真实人口空间分布和大语言模型智能决策的模拟框架，通过让AI代理在旧金山和亚特兰大等城市中模拟居民是否报告流感症状，发现收入和受教育水平是影响报告率的最关键因素，同时地理分布、模型选择和消息策略也有一定影响，从而帮助公共卫生部门更精准地预测疫情传播和制定干预措施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26802

arXiv 提交日期: 2026-05-26

machine learning data differential privacy synthetic data tabular data transformer generative adversarial network

PATE-TabTransGAN：基于Transformer学生判别器的差分隐私合成表格数据生成 / PATE-TabTransGAN: Differentially Private Synthetic Tabular Data Generation via Transformer-Based Student Discrimination

1️⃣ 一句话总结

本文提出了一种名为PATE-TabTransGAN的框架，通过将教师集成隐私聚合(PATE)机制与基于Transformer的学生判别器相结合，在严格保护数据隐私的同时，能高质量地生成保留真实数据中复杂特征关系的合成表格数据，实验证明其性能优于现有的差分隐私表格数据生成方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17849

arXiv 提交日期: 2026-05-18

llm machine learning data synthetic data pretraining reinforcement learning data-bound scaling rephrasing

从有机数据生成预训练语料：面向数据受限扩展的合成数据方法 / Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

1️⃣ 一句话总结

本文提出了一种名为SynPro的框架，通过对有限的有机文本进行改写和重格式化，生成多样化的合成训练数据，使大语言模型在数据严重不足的条件下仍能有效扩展，其性能提升远超简单的重复训练，甚至接近使用更多真实数据的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17758

arXiv 提交日期: 2026-05-18

llm medical data synthetic data tabular data evaluation healthcare fairness

Memisis：面向表格健康数据集的合成数据编排与评估 / Memisis: Orchestrating and Evaluating Synthetic Data for Tabular Health Datasets

1️⃣ 一句话总结

本文介绍了一个名为Memisis的工具，它能整合现有的合成数据生成工具和大语言模型，帮助医疗领域用户更灵活、可控地生成和评估既保护隐私又兼顾公平性和实用性的模拟健康数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17775

arXiv 提交日期: 2026-05-18

medical llm model evaluation clinical text synthetic data factuality evaluation icd coding

大规模（百万级）合成临床笔记由大语言模型改写后的质量系统性评估 / Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale

1️⃣ 一句话总结

本研究在百万份临床笔记规模上，从内部质量、实用性和事实准确性三个维度系统评估了大语言模型改写合成的临床文本，发现这些文本保留了大粒度任务的临床信息和预测能力，但会丢失精细信息（如ICD编码），通过分块改写可缓解这一损失但会降低事实精度，最终证明了合成笔记虽不针对特定任务，却能有效增强罕见ICD编码的训练数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10835

arXiv 提交日期: 2026-05-11

machine learning data multi-modal optical music recognition synthetic data grammar-based decoding end-to-end training omr benchmark

Transcoda：基于数据驱动的合成训练的端到端零样本光学乐谱识别 / Transcoda: End-to-End Zero-Shot Optical Music Recognition via Data-Centric Synthetic Training

1️⃣ 一句话总结

本文提出了一种名为Transcoda的光学乐谱识别系统，通过先进的合成数据生成、编码标准化和语法约束解码，仅用6小时在单GPU上训练一个小模型，就大幅超越了现有大型模型在合成乐谱和历史扫描乐谱上的识别准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.05159

arXiv 提交日期: 2026-05-06

natural language processing model training machine learning polarization detection multilingual synthetic data ensemble models low-rank adaptation

基于集成Gemma模型与合成数据增强的多语言极化检测 / PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

1️⃣ 一句话总结

本文针对涵盖22种语言的社交媒体极化检测任务，通过为每种语言单独微调Gemma大模型，并利用GPT-4o生成高质量合成数据来扩充训练集，最终采用集成策略取得了总成绩第二名，证明了针对不同语言进行个性化调整和合成数据增强的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.03722

arXiv 提交日期: 2026-05-05

machine learning model training loss function learning evolutionary strategy classification pretraining synthetic data

基于进化动力学的无分布预训练分类损失函数 / Distribution-Free Pretraining of Classification Losses via Evolutionary Dynamics

1️⃣ 一句话总结

本文提出一种名为EDL的新方法，能在不依赖真实数据的情况下，通过进化算法自动学习一个轻量级的分类损失函数，从而替代传统交叉熵损失，提升模型准确率并加快训练收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.08903

1️⃣ 一句话总结

arXiv ID: 2606.09479

1️⃣ 一句话总结

arXiv ID: 2606.06360

1️⃣ 一句话总结

arXiv ID: 2605.26802

1️⃣ 一句话总结

arXiv ID: 2605.17849

1️⃣ 一句话总结

arXiv ID: 2605.17758

1️⃣ 一句话总结

arXiv ID: 2605.17775

1️⃣ 一句话总结

arXiv ID: 2605.10835

1️⃣ 一句话总结

arXiv ID: 2605.05159

1️⃣ 一句话总结

arXiv ID: 2605.03722

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.08903 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06360 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26802 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17849 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17758 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10835 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.05159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.03722 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.08903

arXiv ID: 2606.09479

arXiv ID: 2606.06360

arXiv ID: 2605.26802

arXiv ID: 2605.17849

arXiv ID: 2605.17758

arXiv ID: 2605.17775

arXiv ID: 2605.10835

arXiv ID: 2605.05159

arXiv ID: 2605.03722