The extraction of chemical-gene relations plays a pivotal role in understanding the intricate interactions between chemical compounds and genes, with significant implications for drug discovery, disease understanding, and biomedical research. This paper presents a data set created by merging the ChemProt and DrugProt datasets to augment sample counts and improve model accuracy. We evaluate the merged dataset using two state of the art relationship extraction algorithms: Bidirectional Encoder Representations from Transformers (BERT) specifically BioBERT, and Graph Convolutional Networks (GCNs) combined with BioBERT. While BioBERT excels at capturing local contexts, it may benefit from incorporating global information essential for understanding chemical-gene interactions. This can be achieved by integrating GCNs with BioBERT to harness both global and local context. Our results show that by integrating the ChemProt and DrugProt datasets, we demonstrated significant improvements in model performance, particularly in CPR groups shared between the datasets. Incorporating the global context using GCN can help increase the overall precision and recall in some of the CPR groups over using just BioBERT.


翻译:化学-基因关系的抽取对于理解化学化合物与基因之间复杂的相互作用至关重要,对药物发现、疾病理解和生物医学研究具有重大意义。本文提出了通过合并ChemProt和DrugProt数据集构建的数据集,以增加样本数量并提升模型准确性。我们使用两种先进的关系抽取算法对合并数据集进行评估:基于Transformer的双向编码器表示(BERT),具体为BioBERT,以及图卷积网络(GCN)与BioBERT的结合。虽然BioBERT擅长捕捉局部上下文,但结合理解化学-基因相互作用所必需的全局信息可能使其受益。这可以通过将GCN与BioBERT集成来实现,从而同时利用全局和局部上下文。我们的结果表明,通过整合ChemProt和DrugProt数据集,模型性能得到显著提升,尤其是在两个数据集共享的CPR组中。使用GCN引入全局上下文有助于在某些CPR组中提高整体精确率和召回率,优于仅使用BioBERT的效果。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
Transformers 出现以来关系抽取任务的系统综述
专知会员服务
27+阅读 · 2025年11月8日
「基于深度学习的实体关系联合抽取」研究综述
专知会员服务
43+阅读 · 2023年7月5日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
136+阅读 · 2021年9月20日
最新「图机器学习药物发现」综述论文,22页pdf245篇文献
专知会员服务
100+阅读 · 2021年5月24日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
实体关系抽取方法研究综述
专知
14+阅读 · 2020年7月19日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
27+阅读 · 2020年3月1日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
实体关系抽取方法研究综述
专知
14+阅读 · 2020年7月19日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
27+阅读 · 2020年3月1日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员