Fairness Definitions and Metrics in Deep Reinforcement Learning for Drug Discovery in Healthcare: A Rapid Evidence Review

Deep reinforcement learning (DRL) is increasingly applied to de novo molecular design, but choices in data, rewards, and evaluation can yield uneven performance across disease areas and chemotypes. Despite this, there is no concise synthesis of how fairness is defined, measured, and tested in DRL-based drug discovery. In this rapid evidence review, we synthesize fairness definitions and metrics for DRL-driven molecule generation in healthcare. We focus on three questions: (i) how dataset composition and split strategies, especially scaffold versus random splits, affect evaluation and distribution shift; (ii) how reward design (e.g., QED, docking, toxicity, synthetic accessibility) can create or mitigate bias, with emphasis on cancer targets; and (iii) which measurable metrics best capture fairness. This includes parity across cancer versus non-cancer indications and across cancer subtypes. It also includes distributional balance in key physicochemical descriptors, scaffold/chemotype diversity, groupwise validity, toxicity, and synthetic accessibility. From 2017 onward, we searched major biomedical, computer science, and engineering literature databases and used arXiv for horizon scanning. Records were screened using PRISMA-style procedures and analyzed via content coding to link reported parity outcomes to dataset and reward choices. Our review provides a concise set of fairness definitions and metrics for DRL molecule generation. It offers practical guidance for reporting distribution parity and outcome parity. It also summarizes how dataset and reward choices relate to observed parity effects and identifies open gaps relevant to trustworthy, cancer-relevant DRL generation.

翻译：深度强化学习正日益应用于从头分子设计，但数据、奖励函数和评估方式的选择可能导致在不同疾病领域和化学类型间产生不均匀的性能表现。尽管存在这一问题，目前尚缺乏关于如何在基于深度强化学习的药物发现中定义、度量和检验公平性的系统性综合研究。本快速证据综述综合了面向医疗领域深度强化学习驱动分子生成的公平性定义与度量标准。我们聚焦三个问题：（i）数据集构成和划分策略（特别是支架划分与随机划分）如何影响评估和分布偏移；（ii）奖励函数设计（如QED、对接评分、毒性、合成可及性）如何产生或缓解偏差，重点关注癌症靶点；（iii）哪些可量化指标最能反映公平性，包括癌症与非癌症适应症之间及癌症亚型间的均等性，同时涵盖关键理化描述符的分布均衡性、支架/化学类型多样性、分组有效性、毒性及合成可及性。我们系统检索了2017年以来生物医学、计算机科学和工程领域的主要文献数据库，并利用arXiv进行前沿动态扫描。采用PRISMA流程筛选文献，并通过内容编码方法将报告出的均等性结果与数据集和奖励函数选择进行关联分析。本综述为深度强化学习分子生成提供了简明的公平性定义与度量体系，给出了报告分布均等性和结果均等性的实用指南，总结了数据集与奖励函数选择如何影响观测到的均等性效应，并识别了与可信赖的癌症相关深度强化学习生成领域相关的待解决空白。