西班牙研究团队在《Advanced Science》期刊上发表了一项关于糖尿病临床研究的重要进展。他们利用双对抗自编码器合成了近100万糖尿病患者的真实世界纵向数据集,并建立了一个全面的评估框架,以测试这些合成数据在机器学习任务中的效用。研究发现,基于合成数据训练的模型与基于原始数据训练的模型在预测性能上表现相近,尽管存在细微差距。此外,研究还探讨了医疗保健数字化带来的数据激增以及去识别技术面临的挑战,强调了重新识别风险的问题。通过分析表明,合成数据不仅能够有效复制真实数据的预测性能,还能在保护患者隐私的同时提供可靠的生物医学合理性。这项工作为未来大规模糖尿病队列研究提供了新的途径,并对电子健康记录(EHR)的二次利用和真实世界证据(RWE)的生成具有重要意义。