差异物种分析

Dr.Tom约 22 字小于 1 分钟

差异物种分析

差异分析

实验结果中的差异是由真实差异和实验误差组成的,为了了解实验获得数据的差异是否由真实差异导致,需要进行差异检验(也称假设检验)。根据样本是否符合特定的分布规律使用不同的差异检验方法:

  • 参数检验:数据符合特定分布规律(通常是正态分布)时使用,常用的是 T-test / ANNOVA,宏基因组 Alpha 多样性和 Beta 多样性数据可用参数检验。
  • 非参数检验:无法确定数据是否满足某个分布规律时使用,常用的是 Wilcoxon / Kruskal-Wallis。微生物群落组成的丰度数据通常使用非参数检验。

根据比较样本的类型可以分为:

  • 单样本:将实验获得的数据与某一个具体的值进行比较。如生物发酵过程中,某发酵罐内的发酵产物产量是否达到预设值。
  • 配对样本:不同处理、不同时间样本之间是否有差异,不同比较组的样本数应该相同。如不同碳氮比的发酵原料对同一菌株的的发酵能力是否有影响。
  • 独立样本:将不同批次实验获得的数据进行比较,样本数不一定相同。如为了确定某改良水稻品种的亩产是否提高,是将该改良水稻品种的亩产数据与改良前的水稻亩产进行比较。

不同组的某个微生物丰度的比较可以属于配对样本,或者独立样本。

T-test / ANNOVA

参数检验数据可以由一个或多个参数定义的分布很好地描述,多数情况下正态分布,所以在参数检验之间需要验证样品分布是否符合正态分布。参数检验对参数的平均值、方差进行统计检验。当分组数为 2 时,使用 T-test,当样本数大于 2 时,使用 ANNOVA。

Wilcoxon / Kruskal-Wallis

Wilcoxon rank-sum test(Wilcoxon 秩和检验),是两组独立样本非参数检验的一种方法。其原假设为两组独立样本的总体物种分布无显著差异,通过对两组样本平均秩的计算来判断两总体的分布是否存在差异,该分析可以对两组样品的物种进行显著性差异检验,并对 p-value 计算 FDR 值进行校正。

Kruskal-Wallis(KW)是一个关于三组或更多数据的非参数性检验。它的实质是两独立样本的曼-惠特尼 U 检验在多个组别(大于等于三个组别)下的推广,也用于检验多个总体的分布是否存在显著差异。

LEfSe 分析

LEfSe(LDA Effect Size)[1] 是一种用于发现和解释高维度数据生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较。LEfSe 强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的生物标识(Biomarker)。

LEfSe 分析有三个步骤:

  1. 首先利用 Kruskal-Wallis 秩和检验检测不同组间的物种丰度差异,获得差异显著特征(指定分类水平的分类);
  2. 对上一步的差异显著特征,对参与检验的分组进行两两比较,使用成组的 Wilcoxon 秩和检验;
  3. 最后运用 LDA(Linear discriminant analysis,线性判别分析)估计这些差异物种对组间区别的影响大小,即得到 LDA score。

LDA [2] 是在目前机器学习、数据挖掘领域经典且热门的一个算法,它是一种有监督学习(supervised learning)的降维技术,也就是说其数据集中的每个样本是有类别输出的。这点和 PCA 不同,PCA 是不考虑样本类别输出的无监督降维技术。相对 PCA 分析,LDA 算法可以很好的利用样本的分组信息,得到的结果更可靠。

常见问题

Q:Venn 图和 UpSetR 的选择依据?

A:根据分组的数量来进行选择的,当分组数小于 5 个时可以选择 Venn 图或者 UpSetR,当分组数大于 5 时 Venn 图不能展示那么多的数据了,只能选择 UpSetR 来绘图。

Q:参数检验和非参数检验有什么依据?

A:如果数据符合正态分布应该优先选用参数检验,其次才是非参数检验,因为非参数检验没有参数检验灵敏。如果数据中含有极端值,但因为一些原因无法去除,可以选用非参数检验,非参数检验对数据的排名进行检验,极端值对检验结果影响较小。

Q:组间显著性差异分析结果的解读 。

A:组间的差异分析是在不同的物种分类层级上组与组之间的差异是否显著的分析;通常采用的是假设检验, 验证其差异评价数据(例如平均数)相等的概率即 p 值,对 p 值的校正得到 q 值, 根据 p 值 或 q 值来判断组间的差异是否具有显著性。

Q:统计检验 p 值含义?

A:p 是统计检验 H0H_0 成立的概率。统计检验会提出两个互斥的假设,H0H_0 称为零假设,H1H_1 称为备择假设,而显著性检验的目的就是通过计算 p 值决定是接受 H0H_0 拒绝 H1H_1,还是接受 H1H_1 拒绝 H0H_0。当 p < 0.05 时,H0H_0 成立的概率已经很小了,所以接受 H1H_1 拒绝 H0H_0

举个例子,检验某个物种在不同分组中丰度是否差异。首先提出假设

  • H0H_0:该物种在两个分组中没有差异
  • H1H_1:该物种在两个分组中有差异

然后使用 Wilcoxon 检验或 T-test 计算 p 值,这个 p 值表示的是 H0H_0 成立的概率。若 p < 0.05,此时 H0H_0 成立的概率很低,而我们认为低概率事情不可能发生,所以就拒绝 H0H_0,认为该物种在两个分组中有差异。

小贴士

除非特别说明,Dr.Tom 系统默认的差异阈值 p 值为 0.05。

Q:为什么有的比较组中没有差异分析结果?

A:差异分析要求至少 2 个分组,每个分组中的生物学重复应该大于等于 3。对于不符合样本数量的比较组,不会做差异分析。

Q:想要更改 LEfSe 分组颜色

A:目前,系统没有提供 LEfSe 分组颜色更改功能。

Q:LEfSe 是怎么进行分析的?

A:LEfSe 分析有三个步骤:

  1. 首先利用 Kruskal-Wallis 秩和检验检测不同组间的物种丰度差异,获得差异显著特征(指定分类水平的分类);
  2. 对上一步的差异显著特征,对参与检验的分组进行两两比较,使用成组的 Wilcoxon秩和检验;
  3. 最后运用LDA(Linear discriminant analysis,线性判别分析)估计这些差异物种对组间区别的影响大小,即得到 LDA score。
Q:LEfSe 结果中 LDA 的含义?

A:LDA score 的含义是该物种对组间差异的贡献。

Q:LEfSe 方法筛选出来的主要是哪个水平的呢?

A:LEfSe 展示所有水平有差异物种。

参考文献


  1. Segata, N., Izard, J., Waldron, L. et al. Metagenomic biomarker discovery and explanation. Genome Biol 12, R60 (2011). https://doi.org/10.1186/gb-2011-12-6-r60open in new window ↩︎

  2. Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7(2), 179–188. https://doi.org/10.1111/j.1469-1809.1936.tb02137.xopen in new window ↩︎