文章预览
MedSyn: LLM-based Synthetic Medical TextGeneration Framework Abstract 摘要 生成合成文本解决了在隐私敏感领域如医疗保健中数据可用性的挑战。本研究探讨了合成数据在现实医疗环境中的适用性。我们介绍了MedSyn,这是一种新颖的医疗文本生成框架,它将大型语言模型与医疗知识图谱(MKG)相结合。我们使用MKG来抽取提示的先前医疗信息,并使用GPT-4和微调后的LLaMA模型生成合成临床笔记。我们通过在ICD代码预测任务中的应用评估合成数据的益处。我们的研究表明,与没有合成数据的环境相比,合成数据可以将关键且具有挑战性的代码的分类准确率提高多达17.8%。此外,为了为医疗保健领域的进一步研究提供新数据,我们提供了最大的俄语临床笔记开放源代码合成数据集,包含超过41k个样本,涵盖219个ICD-10代码。 关键词: 合成数据 临床笔记生成 ICD代码预测 1 Intr
………………………………