Synthetic data generation using large language models (LLMs) demonstrates substantial promise in addressing biomedical data challenges and shows increasing adoption in biomedical research. This study systematically reviews recent advances in synthetic data generation for biomedical applications and clinical research, focusing on how LLMs address data scarcity, utility, and quality issues with different modalities. We conducted a scoping review following PRISMA-ScR guidelines and searched literature published between 2020 and 2025 through PubMed, ACM, Web of Science, and Google Scholar. A total of 59 studies were included based on relevance to synthetic data generation in biomedical contexts. Among the reviewed studies, the predominant data modalities were unstructured texts (78.0\%), tabular data (13.6\%), and multimodal sources (8.4\%). Common generation methods included LLM prompting (74.6\%), fine-tuning (20.3\%), and specialized models (5.1\%). Evaluations were heterogeneous: intrinsic metrics (27.1\%), human-in-the-loop assessments (44.1\%), and LLM-based evaluations (13.6\%). However, limitations and key barriers persist in data modalities, domain utility, resource and model accessibility, and standardized evaluation protocols. Future efforts may focus on developing standardized, transparent evaluation frameworks and expanding accessibility to support effective applications in biomedical research.


翻译:利用大型语言模型(LLM)生成合成数据在应对生物医学数据挑战方面展现出巨大潜力,并在生物医学研究中得到日益广泛的应用。本研究系统综述了合成数据生成在生物医学应用与临床研究中的最新进展,重点关注LLM如何应对不同模态下的数据稀缺性、效用与质量问题。我们遵循PRISMA-ScR指南开展了范围综述,通过PubMed、ACM、Web of Science和Google Scholar检索了2020年至2025年间发表的文献。根据与生物医学领域合成数据生成的相关性,共纳入59项研究。在综述的研究中,主要的数据模态包括非结构化文本(78.0%)、表格数据(13.6%)和多模态数据(8.4%)。常用的生成方法包括LLM提示工程(74.6%)、微调(20.3%)和专用模型(5.1%)。评估方法呈现异质性:内在指标评估(27.1%)、人机协同评估(44.1%)以及基于LLM的评估(13.6%)。然而,在数据模态、领域效用、资源与模型可及性以及标准化评估协议方面仍存在局限性与关键障碍。未来的工作可聚焦于开发标准化、透明的评估框架,并扩展可及性以支持生物医学研究中的有效应用。

0
下载
关闭预览

相关内容

具有动能的生命体。
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大型语言模型在生物信息学中的应用综述
专知会员服务
16+阅读 · 2025年3月15日
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大型语言模型在生物信息学中的应用综述
专知会员服务
16+阅读 · 2025年3月15日
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员