您在这里:
Nature Protocol | clusterProfiler,快速表征多组学数据
世界生命科学大会 2024-08-05 14:35:46 发表于 北京




INTRODUCTION

研究介绍


研究背景

Background

随着多组学分析的出现,寻找生物过程和疾病中的差异基因组,阐明疾病的机制,以及确定潜在的治疗靶点,都越来越离不开多维富集分析软件。

clusterProfiler是一个用于描述和解释组学数据的软件包。功能富集可以通过分析过度表征或基因集富集来实现。该软件支持使用各种数据库,如基因本体论[GO]和京都基因和基因组百科全书[KEGG]。它可以用于研究特定的基因或集合与特定的生物学功能、通路或分类之间的关联。

该分析是通过计算进行的,通常在基因转录蛋白质表达或其他大规模生物信息学数据等相关研究中用到。

功能富集分析的两种最常见的方法:

ORA:过度表征分析,是一种主要用于预定义基因列表的方法,如实验中的显著差异表达基因(DEGs)。ORA决定了哪些功能或通路在整个基因组或参考集合中出现的频率比预期的更高,得出最适合分析且具有实质性影响的基因。

GSEA:基因集富集分析,可以评估整个基因表达谱,以确定一个基因集的显著性排名。在这种情况下,一组基因可能是与特定的生化途径相关的基因集合,也可能是与特定的生理功能、疾病过程或药理反应相关的基因集合。GSEA识别的是基因集合的行为。

目前ORA和GSEA被广泛使用,许多软件平台主要集中于对传统的途径进行富集评估。

图1|clusterProfiler概述


研究目的

Objectives

clusterProfiler是一个通用的工具,它集成了GSEA和ORA方法,允许用户定制数据库和注释,提供了更广泛的解释范围,促进了从单细胞类型到细菌代谢组,甚至转录因子分析等新兴领域的研究。

这篇文章旨在通过三个具体的例子,对这一工具的不同应用场景进行全面的分析:

1.比较不同疾病的功能概况。

2.非模式生物中的转录因子分析。

3.来自单细胞转录组数据的自动细胞类型注释


METHODS

研究方法

研究亮点

1

阐明微生物群、代谢物和疾病之间复杂的相互联系

2

确定植物耐寒途径中活性转录因子

3

单细胞转录组学注释细胞类型


试验设计

Experimental design

在这三个例子中,主要使用clusterProfiler的ORA(三个例子中均使用)和GSEA算法(在第二个例子中使用)探索下游生物通路调控和细胞类型识别。


ORA算法的整体思路

选择某个列表中感兴趣的特性进行后续分析,如基因或代谢物;选择一个合适的注释数据库,如GO或KEGG通路数据库;使用clusterProfiler提供的富集功能,如GO富集或KEGG富集,使用ORA算法进行分析。

GSEA算法的整体思路

获得一系列具有生物学意义的特征,如折叠变化值、T统计量或校正的P值排序等特征;利用clusterProfiler中的gseKEGG、gseGO或GSEA等功能进行GSEA分析;对于涉及多个组的场景,可以使用其他函数进行比较分析。


GSEA或ORA的选择

Tips

在选择这两种富集方法时,通常会根据输入数据的特征和分析目标来做出决策。

对于输入数据,ORA算法只需要一系列感兴趣的基因,其中可能包括同源基因、单细胞标记基因或来自免疫沉淀相互作用的蛋白质;GSEA需要一个完整的、经过排序的基因列表,比如按log2倍变化排序的基因列表等。

关于分析目标,ORA采用Fisher精确检验来检查一组基因是否明显存在于一组基因中,这是富集分析中的一种典型方法;GSEA评估一个基因集是否倾向于聚集在排名列表的顶部或底部,以确定该基因集在特定条件下是否被激活或抑制。GSEA的优势在于它能够发现微妙而一致的通路,而不仅仅是基因的上调和下调。


FINDINGS

研究发现

基本信息描述

1

比较不同疾病的功能概况

2

非模式生物中的转录因子分析

3

从单细胞转录组数据中获得细胞类型注释


一、比较不同疾病的功能概况

比较不同亚型IBD的功能谱

在疾病研究中,结合多组学数据是深入理解生物系统的复杂性和调查疾病原因的关键。宏基因组学主要集中于微生物的遗传成分,而代谢组学则集中于宿主-微生物相互作用的代谢最终产物。


使用宏基因组预处理的KEGG基因丰度信息和代谢组预处理的代谢物特征丰度表。其中包括56例对照样本,76例溃疡性结肠炎(UC)患者和88例克罗恩病(CD)患者。基于此数据,进行功能富集分析,旨在识别在炎性肠病(IBD)的两种亚型中被干扰的共同的和特殊的的生物通路和功能亚群。


       代谢组学和宏基因组上游数据预处理(供参考):

       宏基因组学部分:使用fastp73对原始reads进行初始质量控制;使用Bowtie2与人类基因组进行比对,去除宿主(人类)DNA;使用MetaPhlAn2进行分类,保留相对丰度超过0.1%的物种;使用HUMAnN2进行功能分析,通过KEGG KO号或EC号来整理基因丰度。

       代谢组学部分:样品代谢物一般采用液相色谱-串联质谱技术进行分析,包括极性代谢物、脂质、游离脂肪酸和胆汁酸。每种技术都采用了高灵敏度的质谱仪,能够检测已知和未知的代谢物。原始液相色谱-串联质谱数据处理,包括降噪、峰值检测、同位素聚类检测、保留时间对齐和代谢物识别,可以使用Genedata Expressionist software。

图2|比较不同亚型IBD的功能谱

主要研究肠道微生物群基因(a)和肠道代谢物(b)


二、非模式生物中的转录因子分析

相关转录因子功能特征

当前,非模式生物已经被广泛的基因编目数据库注释,从而对细胞系统生物学有了更清晰的理解。该部分描述了一个分析非模式生物的方法框架。使用毛竹(PE)的转录组测序数据集,涉及到一个专门的GSEA植物转录因子数据库的战略整合。该部分研究目标集中在确定不同发育时间起作用的转录调控因子,旨在进一步解码它们在冷适应反应中的功能含义。

利用低温条件下的原始基因丰度表达表,其中行名为基因名,列名为样本名。探讨毛竹(PE)在寒冷条件下可能存在的基因转录调控机制,从PlantTFDB53中下载了毛竹的转录因子家族列表和基因GO注释表。用户可以根据自己的数据和实验设计,替换该转录因子列表和功能注释表。


转录组数据的预处理:

①对测序reads的质量控制,包括评估测序reads的质量,去除低质量的reads等。此步骤通常使用的软件包括FastQC、Trimmomatic或fastp73。

②比对和定量,使用Tophat78、STAR79、Bowtie274或HISAT2等工具将清理后的reads映射到参考基因组或转录组等

③用cuffquant、RSEM、featureCounts或HTSeq等工具来量化转录本。在这些步骤之后,基于对齐结果,用户获得一个基因表达计数表,用于分析。

图3|在竹子中参与耐寒转录因子的生物学功能特征


三、单细胞转录组数据中细胞类型注释

识别细胞类型

单细胞测序方法以较高精度探索细胞内在的异质性。这一部分使用到MSigDB47(用于注释的基因数据库)的C8基因集,并与clusterProfiler协同集成。

这一部分使用到外周血单个核细胞(PBMCs)的单细胞数据,MSigDB47(用于注释的基因数据库)的C8基因集,并与clusterProfiler协同集成。

①使用Seurat进行上游数据阅读和初步分析,包括线粒体基因的去除、数据标准化、高度可变基因的识别、主成分分析(PCA)、UMAP降维和聚类分析。

②使用RunMCA分析和GetGroupGeneSet,通过CelliD60从每个细胞簇中提取前20个特征基因。

③使用clusterProfiler的比较集群和集合,为每个集群执行单元GSEA。

④根据MSigDB数据库中的细胞类型基因集,按照富集程度对每个细胞簇进行细胞类型注释。(用户也可以使用他们独立收集的可靠的细胞类型基因集列表进行注释)

图4|在单细胞水平上识别细胞类型。

(a).用已知细胞类型(通过典型标记匹配);(b).预测细胞类型(通过聚类分析获得)

DISCUSSION

研究讨论

研究局限性

1

软件使用在很大程度上依赖于公共注释资源,选择的数据库决定着结果的精确度

2

数据可能包含假阳性或不够全面,数据虽然直观,但会存在偏差

3

软件得出结果很快,但需要有清晰、全面的分析思路,对用户知识储备量具有挑战性


展望

PROSPECT

在大数据时代,需要借助软件快速分析。通过对分析软件的熟练掌握,可以促进软件的创新和分析策略的发展,拓宽未来的研究视野。

clusterProfiler集成各种的功能、扩展注释数据库端口、合并辅助软件包并且简化了数据分析和可视化过程,其在科学界的影响力和实用性都将不断增强。


参考文献

[1] Xu S, Hu E, Cai Y, et al. Xie Z, Luo X, Zhan L, Tang W, Wang Q, Liu B, Wang R, Xie W, Wu T, Xie L, Yu G. Using clusterProfiler to characterize multiomics data. Nat Protoc. 2024 Jul 17.


INSTITUTION

南方医科大学

南方医科大学(Southern Medical University),为广东省人民政府、国家卫生计生委和教育部共建高校,是位于广东省广州市的一所重点大学。学校是广东省首批5所省属高水平大学重点建设高校中唯一的医学院校、中国首批“部委省”共建医科高校、首批八年制临床医学专业(本博连读)的8所高校之一。



END

文案 | 小果子

排版 | 小果子

审核 | 小果子

发布|姜笑南


世界生命科学大会


RECRUIT

关注我们,获取生命科学

学界前沿促进更多的学术交流与合作

业界前沿促进更快的产品创新与应用

政策前沿促进更好的治理实践与发展


我们期待你的加入

RECRUIT

投稿联系:

欢迎加入世界生命科学大会,探索生命医学新未来。

添加微信请备注(单位-专业-姓名)