您在这里:
Nature Medicine | 蛋白质组特征提高常见和罕见病的风险预测
世界生命科学大会 2024-08-03 11:26:54 发表于 北京




INTRODUCTION

研究介绍


研究背景

Background

精准医学面临的一个重要挑战是开发识别高风险个体的临床工具让及时诊断、早期治疗、提高患者结局成为可能。临床上推荐的工具已经被广泛使用于预测心脏病和中风发生的风险,但是应用于其他疾病的工具还很少。在多种疾病中从症状一开始出现到诊断都有数月或数年的延迟。广泛捕获血浆蛋白组学可能能够促进解决这个挑战。已经有报道稀疏蛋白特征能够促进发现现有筛查策略无法识别的糖尿病高风险人群。然而,血浆蛋白组学是否能为广泛的一系列疾病提供有临床价值的预测或者机制信息还不清楚,原因第一,之前的蛋白组学研究中的参与人数太少无法评估罕见和常见病;第二,之前的疾病发生的研究只集中于少部分常见疾病;第三,之前研究报道的筛查的指标并没有和临床模型(没有蛋白)比较。



研究目的

Aim

系统性查询可测量的血浆蛋白组对218种病理不同的疾病的10年预测潜力;发现指向病因机制的疾病特异的预测蛋白;测定疾病蛋白组特征的筛查指标是否达到或者超过现用于临床的血液检测的。数据来源于United Kingdom Biobank Pharma Proteomics Project (UKB-PPP).

METHODS

研究方法

1

研究设计:蛋白质组分析是在作为UKB-PPP一部分的UKB~54,000对象的EDTA血浆样本中进行的。参与者与电子健康记录(EHR)相连接。研究设计由三个要素组成:1. 46595个体组成了随机分组;2. 6356个体由UKB-PPP联盟选中,他们有不同的基线特征;3. 1268个体参与了COVID-19影像学研究,并多次重复影像。在UKB-PPP中进行队列研究来开发、验证、比较有蛋白和没有蛋白的预测模型。蛋白质组测量是基于排除了缺少数据的个体后的随机分组个体(N=41931)。蛋白质组分析使用了Olink Explore 1536和Explore Expansion平台。

2

统计分析:三步的机器学习框架:1. 特征选择 2.超参数调优 3.验证。对于多于800个案例的疾病,将个体分组:50%特征选择,25%模型优化(训练),25%验证。否则,70%特征选择和模型优化和30%验证。使用正则化Cox回归产生一个“基准”临床模型对于每种疾病,他们在2941个蛋白靶点或37个临床检测中用LASSO回归对多于200个亚样本进行了特征选择。表现测试是在验证集中计算超过1000 bootstrap样本的一致性指数(C-index)测试在基准临床模型上加入5-20个蛋白或者5-20个临床检测是否有提高筛查指标:假阳性率(FPR) = FP/[真阴性 (TN) + FP];检测率(DR)= 真阳性(TP)/[假阴性(FN))+ TP];似然比(LR) = DR/FPR

图1

FINDINGS

研究发现


1. 稀疏的蛋白特征提高了临床模型的预测表现 



对于67种罕见和常见病来说,加入5-20个蛋白显著提高了临床模型预测表现(中位delta C-index = 0.07, 范围 = 0.02–0.31)(图2a和原文附表4)。在这67种疾病中,10%FPR时中位检测率(DR)为45.5%而临床模型的为25%(图2b和原文附表5)。67种疾病的中位似然比LR为4.55(图2c)。

图2 在67种疾病的基础临床风险因素之上加入蛋白质组信息提高发病风险的预测表现


额外加入血液检测结果的临床模型相比临床模型只显著提高了28种疾病的预测表现(中位delta C-index = 0.08, 范围= 0.01–0.28)(图3a和原文附表9)。与基于血液检测的临床模型相比,在10%FPR时基于蛋白的临床模型实现更高的LR(图3b,c和原文附表10)。

图3 比较基于蛋白模型(临床风险因素+蛋白)和基于生物标志物模型(临床风险因素+血液检测)的预测表现


2. 预测几种疾病的蛋白 


在67种有改善的预测模型中,被两种或多种疾病(范围为2-16)选中的蛋白靶点大多数被选中的范围在2-9(图4a)。相比于高度特异的蛋白,这些蛋白对于每种疾病预测的贡献更低(图4b)。

图4a,b 预测蛋白的疾病特异性


3. 特异性预测一种疾病的蛋白


作者发现了仅且强烈预测一种疾病的蛋白(图4c和原文附表18)。

图4c 只被一种疾病选中的疾病特异蛋白且归一化权重大于0.6


4. 蛋白临床模型的筛查指标


作者在不同疾病中广泛的FPR范围下(5-40%)观察到基于蛋白临床模型一致良好的筛查指标(图5)。

图5 比较基于蛋白模型,基于临床检测模型和临床模型在一系列FPR下的DR

研究讨论

这个研究体现了在常见或罕见病中用稀疏的蛋白特征来提高预测疾病发生的潜力,它的表现不仅高于临床模型,而且优于临床检测模型。与多基因风险分数(PGS)相比,循环的蛋白质特征的动态本质可能能反映环境暴露的风险变化。

研究有重要的局限性。首先结果需要在种族多样的人群和具有不同测试前疾病可能性的队列中以及外部研究的验证(UKB具有健康参与者效应)。第二,更罕见疾病的检测率的估计需要更大的样本量。而且,Olink Explore平台的蛋白选择限制了发现新的生物标志物,非靶向质谱检测可能能揭示额外的标志物。除此以外,血浆蛋白在预测属于特定疾病专科的疾病是有优势的,但是其他疾病比如感染性或者眼科疾病需要其他种类的组织样本或者完全不同的临床信息以更好地预测。


总结

研究意义

稀疏的血浆蛋白特征当结合EHR时能够通过疾病特异蛋白和预测几种疾病的蛋白为常见和罕见疾病提供优于标准临床检测的预测。


参考文献

[1] Carrasco-Zanini, J., Pietzner, M., Davitte, J., Surendran, P., Croteau-Chonka, D. C., Robins, C., Torralbo, A., Tomlinson, C., Grünschläger, F., Fitzpatrick, N., et al. (2024). Proteomic signatures improve risk prediction for common and rare diseases. Nat Med, 10.1038/s41591-024-03142-z. Advance online publication.



END

文案 | 林夕

排版 | 林夕

审核 | 林夕

发布|姜笑南


世界生命科学大会


RECRUIT

关注我们,获取生命科学

学界前沿促进更多的学术交流与合作

业界前沿促进更快的产品创新与应用

政策前沿促进更好的治理实践与发展