Machine learning (ML) holds great promise for clinical applications but is often hindered by limited access to high-quality data due to privacy concerns, high costs, and long timelines associated with clinical trials. While large language models (LLMs) have demonstrated strong performance in general-purpose generation tasks, their application to synthesizing realistic clinical trials remains underexplored. In this work, we propose a novel Retrieval-Reasoning framework that leverages few-shot prompting with LLMs to generate synthetic clinical trial reports annotated with binary success/failure outcomes. Our approach integrates a retrieval module to ground the generation on relevant trial data and a reasoning module to ensure domain-consistent justifications. Experiments conducted on real clinical trials from the ClinicalTrials.gov database demonstrate that the generated synthetic trials effectively augment real datasets. Fine-tuning a BioBERT classifier on synthetic data, real data, or their combination shows that hybrid fine-tuning leads to improved performance on clinical trial outcome prediction tasks. Our results suggest that LLM-based synthetic data can serve as a powerful tool for privacy-preserving data augmentation in clinical research. The code is available at https://github.com/XuZR3x/Retrieval_Reasoning_Clinical_Trial_Generation.


翻译:机器学习在临床应用中潜力巨大,但常因隐私问题、高成本及临床试验周期漫长导致高质量数据获取受限而受阻。尽管大语言模型在通用生成任务中表现优异,但其在合成逼真临床试验报告方面的应用尚待深入探索。本研究提出一种新颖的检索推理框架,通过大语言模型的少样本提示方法生成标注有二元成功/失败结果的合成临床试验报告。该框架集成检索模块以关联相关试验数据作为生成基础,并引入推理模块确保生成内容具有领域一致性论证。基于ClinicalTrials.gov数据库真实临床试验的实验表明,生成的合成试验可有效扩充真实数据集。分别在合成数据、真实数据及其组合上微调BioBERT分类器的结果显示,混合微调能提升临床试验结果预测任务的性能。本研究表明,基于大语言模型的合成数据可作为临床研究中保护隐私的数据增强工具。代码已开源至https://github.com/XuZR3x/Retrieval_Reasoning_Clinical_Trial_Generation。

0
下载
关闭预览

相关内容

医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
医学大语言模型研究与应用综述
专知会员服务
67+阅读 · 2024年7月2日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2024年5月21日
Arxiv
10+阅读 · 2023年5月4日
VIP会员
最新内容
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 12分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 32分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
医学大语言模型研究与应用综述
专知会员服务
67+阅读 · 2024年7月2日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员