电磁生物环境与医学先进诊疗技术实验室

基于汇总统计数据疾病多基因风险评分云计算资源

多基因评分(Polygenic Scores,PGS)是基因组中与复杂性状相关等位基因的加权线性组合,通过计算多个影响较小的遗传变异的综合影响,进而估计个体出现某种性状或罹患某种疾病的风险。随着新一代测序技术的发展和英国生物样本库(UK Biobank,UKBB)等大型队列研究的展开,对人群进行发病风险预测成为可能,而多基因评分也因此有望成为评估重大疾病风险的有效工具。目前已有多个研究将PGS应用于人类复杂疾病中,例如冠状动脉疾病、糖尿病和乳腺癌等。这些研究结果都表明PGS整合多个遗传易感位点的信息,可以提高人群风险预测、筛查及干预的效果。然而,迄今为止尚未有系统地对GWAS数据进行多种标准化的PGS分析的研究。

课题组近日在Nucleic Acids Research发表了题为PGS-Depot: acomprehensive resource for polygenic scores constructed by summary statisticsbased methods的数据库文章。该文章介绍了名为PGS-Depot的数据库,包含了目前公开的5585套GWAS数据在11种PGS方法的分析结果。

南京医科大学生物医学工程与信息学院电磁生物环境与医学先进诊疗技术实验室教授曹晨、博士生张舒婷与天津医科大学王建华为文章的共同第一作者。PGS-Depot汇总了 1567种复杂性状的PGS数据,并集成了11种不同的PGS计算方法,这些方法均基于 GWAS汇总统计数据。使用皮尔森相关系数(R²)和曲线下面积(AUC)指标可以评估每种方法在相同及不同祖先背景人群中的预测性能,衡量每种PGS方法在多样人群中的预测准确性,更深入地理解这些方法的普适性和可转移性。PGS-Depot的目的是供一个综合性的工具,它不仅帮助研究者评价不同PGS方法的表现,也为医生和研究人员供了一个更为可靠的基因风险预测资源库。



图1. PGS-Depot数据库的构建过程(A)PGS-Depot 所使用的数据来源及类型。(B)PGS-Depot 建立的主要流程。首先,对收集到的汇总统计数据进行了质量控制。数据库仅保留了5585个包括定量和二元特征的摘要统计。其次,为11种PGS方法拟合了模型。随机抽取50000名UKBB个体作为验证集,同时使用1000GP作为参考面板。最后,计算PGS并评估了它们的性能。测试集由来自UKBB的三个祖先群体组成。


图2. PGS-Depot针对阿尔兹海默症的检索信息。(A)性状页面:包括性状的详细信息和相关研究文献数据。(B)11种PGS方法的颜色区分情况以及通过方法下载PGS的FTP导航。(C)用于下载PGS和GWAS汇总统计数据信息的FTP导航。(D)箱型图可视化 11 种 PGS 方法在同族群和跨族群人群中的性能比较。(E)PGS-Depot所包含的26种特征类别及占比。(F)GWAS统计数据的每年增长趋势。

论文信息:

PGS-Depot: a comprehensive resource forpolygenic scores constructed by summary statistics based methods

Chen Cao, Shuting Zhang,Jianhua Wang, Min Tian, Xiaolong Ji, Dandan Huang*,Sheng Yang*, Ning Gu

Nucleic Acids Research

DOI:10.1093/nar/gkae351

原文链接:https://doi.org/10.1093/nar/gkad1029



(撰稿/张舒婷;审核/曹晨)