药物基因组学研究中的代表性偏差
代表性偏差是指在支撑药物基因组学的队列、参考数据库和验证研究中,某些人群(绝大多数是欧洲血统人群)被系统性地过度代表,而其他人群则被代表不足。由于药物基因组学的发现和注释是根据所研究的人群进行校准的,这种不平衡使得证据基础对于代表性不足的群体而言不那么完整和可靠。
Definition
药物基因组学证据中存在的系统性偏差,即发现队列、参考面板和验证研究不成比例地抽样特定人群(主要是欧洲血统),从而产生在全人类中推广不均衡的发现和工具。
Scope
本主题旨在记录基因组学和药物基因组学研究中多样性差距的规模、其导致研究结果偏差的机制以及其对公平性造成的下游影响。这是一份方法论和参考性概述;它不提供临床建议。
Core questions
- 在基因组学和药物基因组学研究中,人群的代表性不均衡程度如何?
- 代表性不足通过哪些机制导致发现、注释和验证的偏差?
- 多样性差距对公平性有什么影响?
- 哪些举措正在扩大基因组数据的多样性?
- 代表性偏差如何与遗传预测因子的可转移性相互作用?
Key concepts
- 过度代表和代表不足
- 确定性偏差
- 参考面板组成
- 预测因子的可转移性(可移植性)
- 变异解释和重新分类
- 多样化生物样本库和联盟(例如,TOPMed, H3Africa, All of Us)
- 健康差异
Mechanisms
偏差在多个阶段产生。主要来自欧洲血统参与者的发现队列识别出该群体中常见的变异,因此在其他地方普遍存在的变异不太可能被发现或进行功能注释。由偏斜数据组装的参考面板在对代表性良好的人群进行变异推断和解释时表现更好。在相同群体中进行的验证研究证实了其在该群体中的表现,但未能在其他群体中测试其普遍性。因此,遗传预测因子(包括多基因评分)往往在代表性不足的人群中转移性较差,并且这些人群中的变异更常被归类为意义不确定。非洲人群拥有最多的遗传多样性,因此受影响尤其严重,因为他们的许多变异在以欧洲为中心的资源中根本不存在。
Clinical relevance
代表性偏差对于判断药物基因组学发现或工具对特定人群是否可靠至关重要。本条目描述了偏差如何产生以及它对证据完整性的影响;它不是临床指南,不涉及个体检测或治疗。
Epidemiology
对全基因组关联研究和基因组学研究的审计反复发现,欧洲血统的参与者在所研究的人群中占绝大多数——远高于他们在全球人口中的比例——而非洲、拉丁美洲以及许多亚洲和原住民人口仍然明显代表不足,尽管持续受到关注,但这一差距缩小得非常缓慢。
History
Popejoy和Fullerton在2016年的分析显示欧洲血统参与者的主导地位,这使得人们对基因组学缺乏多样性的担忧具体化,而Sirugo及其同事在2019年的综述记录了这一差距的持续存在,进一步强化了这种担忧。Martin及其同事(2019年)证明了一个具体的危害——多基因评分在非欧洲人群中的表现更差,并可能扩大差异。NHLBI TOPMed项目、H3Africa和大型多样化生物样本库等倡议的出现,部分是为了解决这种不平衡。
Debates
- 为什么尽管受到关注,多样性差距仍然存在?
- 解释包括根深蒂固的招募基础设施、资金模式、边缘化社区的历史不信任以及方法上的便利性;评论员对于哪些杠杆能最有效地缩小差距存在分歧。
Key figures
- Alice B. Popejoy
- Stephanie M. Fullerton
- Sarah Tishkoff
- Alicia R. Martin
- Charles Rotimi
Related topics
Seminal works
- popejoy-2016
- sirugo-2019
- martin-2019
Frequently asked questions
- 为什么大多数基因组研究都集中在欧洲血统人群中很重要?
- 药物基因组学的发现、变异解释和预测工具都是根据所研究的人群进行校准的。当这些人群主要为欧洲血统时,由此产生的知识对于其他人群而言就不那么完整和可靠,从而导致健康差异。
- 增加多样化数据能解决问题吗?
- 扩大队列和参考面板的多样性是必要且有帮助的,但必须与跨人群的分析方法以及对社区信任和公平利益的关注相结合。