The use of synthetic data is recognized as a crucial step in the development of neural network-based Artificial Intelligence (AI) systems. While the methods for generating synthetic data for AI applications in other domains have a role in certain biomedical AI systems, primarily related to image processing, there is a critical gap in the generation of time series data for AI tasks where it is necessary to know how the system works. This is most pronounced in the ability to generate synthetic multi-dimensional molecular time series data (SMMTSD); this is the type of data that underpins research into biomarkers and mediator signatures for forecasting various diseases and is an essential component of the drug development pipeline. We argue the insufficiency of statistical and data-centric machine learning (ML) means of generating this type of synthetic data is due to a combination of factors: perpetual data sparsity due to the Curse of Dimensionality, the inapplicability of the Central Limit Theorem, and the limits imposed by the Causal Hierarchy Theorem. Alternatively, we present a rationale for using complex multi-scale mechanism-based simulation models, constructed and operated on to account for epistemic incompleteness and the need to provide maximal expansiveness in concordance with the Principle of Maximal Entropy. These procedures provide for the generation of SMMTD that minimizes the known shortcomings associated with neural network AI systems, namely overfitting and lack of generalizability. The generation of synthetic data that accounts for the identified factors of multi-dimensional time series data is an essential capability for the development of mediator-biomarker based AI forecasting systems, and therapeutic control development and optimization through systems like Drug Development Digital Twins.


翻译:合成数据的应用被认为是开发基于神经网络的人工智能(AI)系统的关键环节。尽管其他领域用于AI应用的合成数据生成方法在部分生物医学AI系统(主要涉及图像处理)中具有一定作用,但在需要理解系统运行机制的AI任务中,时间序列数据的生成仍存在关键空白。这一空白在生成合成多维分子时间序列数据(SMMTSD)方面尤为突出——此类数据是支撑疾病预测生物标志物与中介因子特征研究的基石,也是药物开发管线的重要组成部分。我们认为,统计方法和以数据为中心的机器学习(ML)手段无法充分生成此类合成数据,其原因可归结为多重因素:维度灾难导致的持续性数据稀疏性、中心极限定理的不适用性,以及因果层次定理所施加的限制。为此,我们提出一种替代方案的理论依据:采用基于复杂多尺度机制的仿真模型,在构建与运行中充分考虑认知不完备性,并依据最大熵原理追求最大扩展性。这些流程生成的SMMTD可最大限度减少神经网络AI系统的已知缺陷,即过拟合与泛化能力不足。针对多维时间序列数据的上述关键因素生成合成数据,是开发基于中介因子-生物标志物的AI预测系统,以及通过药物开发数字孪生等系统实现治疗控制开发与优化的核心能力。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
药物发现中的深度学习
专知会员服务
41+阅读 · 2022年11月14日
用于药物发现的抗体表征学习
专知会员服务
10+阅读 · 2022年10月31日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
122+阅读 · 2019年12月9日
药物发现中的深度学习
专知
3+阅读 · 2022年11月14日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
31+阅读 · 2022年2月15日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
11+阅读 · 5月30日
相关VIP内容
药物发现中的深度学习
专知会员服务
41+阅读 · 2022年11月14日
用于药物发现的抗体表征学习
专知会员服务
10+阅读 · 2022年10月31日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
122+阅读 · 2019年12月9日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员