差异功能分析

Dr.Tom约 22 字小于 1 分钟

差异分析

差异分析

实验结果中的差异是由真实差异和实验误差组成的,为了了解实验获得数据的差异是否由真实差异导致,需要进行差异检验(也称假设检验)。根据样本是否符合特定的分布规律使用不同的差异检验方法:

  • 参数检验:数据符合特定分布规律(通常是正态分布)时使用,常用的是 T-test / ANNOVA,宏基因组 Alpha 多样性和 Beta 多样性数据可用参数检验。
  • 非参数检验:无法确定数据是否满足某个分布规律时使用,常用的是 Wilcoxon / Kruskal-Wallis。微生物群落组成的丰度数据通常使用非参数检验。

根据比较样本的类型可以分为:

  • 单样本:将实验获得的数据与某一个具体的值进行比较。如生物发酵过程中,某发酵罐内的发酵产物产量是否达到预设值。
  • 配对样本:不同处理、不同时间样本之间是否有差异,不同比较组的样本数应该相同。如不同碳氮比的发酵原料对同一菌株的的发酵能力是否有影响。
  • 独立样本:将不同批次实验获得的数据进行比较,样本数不一定相同。如为了确定某改良水稻品种的亩产是否提高,是将该改良水稻品种的亩产数据与改良前的水稻亩产进行比较。

不同组的某个微生物丰度的比较可以属于配对样本,或者独立样本。

T-test / ANNOVA

参数检验数据可以由一个或多个参数定义的分布很好地描述,多数情况下正态分布,所以在参数检验之间需要验证样品分布是否符合正态分布。参数检验对参数的平均值、方差进行统计检验。当分组数为 2 时,使用 T-test,当样本数大于 2 时,使用 ANNOVA。

Wilcoxon / Kruskal-Wallis

Wilcoxon rank-sum test(Wilcoxon 秩和检验),是两组独立样本非参数检验的一种方法。其原假设为两组独立样本的总体物种分布无显著差异,通过对两组样本平均秩的计算来判断两总体的分布是否存在差异,该分析可以对两组样品的物种进行显著性差异检验,并对 p-value 计算 FDR 值进行校正。

Kruskal-Wallis(KW)是一个关于三组或更多数据的非参数性检验。它的实质是两独立样本的曼-惠特尼 U 检验在多个组别(大于等于三个组别)下的推广,也用于检验多个总体的分布是否存在显著差异。

KEGG 通路富集分析

通路的差异很难通过微观的 KO 差异去反映整体变化。Reporter Score [1] 方法把涉及某一通路的所有 KO 进行统计检验,用整体的累计趋势去反映该通路变化,实现了微观与宏观的连接。

Reporter Score 计算如下:

通过秩和检验获得每个 KO 差异显著性的 p 值,采用逆正态分布获得每个 p 值相对应的 Z 值。计算方法如下:

Zn=θ1(1Pi) Z_n = \theta^{-1}(1-P_i)

ii:代表某条通路的第 i 个 KO

PiP_i:代表第 i 个 KO 在分组间秩和检验获得的 P 值

基于 KO 的 Z 值,计算通路的 Z 值,即可将 KO “上升” 至通路,其计算公式如下:

Zm=1kZi Z_m = \frac{1}{\sqrt{k}}\sum{Z_i}

ZmZ_m:代表某条通路的 Z 值

kk:表示共有 k 个 KO 注释到该通路

为评估显著程度,对某一条通路置换(permutation)1000 次,获得 Z 值的随机分布以校正 Z 值,其校正公式如下:

Zcorrected=Zmμkδk Z_{corrected} = \frac{Z_m-\mu_k}{\delta_{k}}

μk\mu_k:1000 次随机的通路均值
δk\delta_{k}:1000 次随机数据的标准差

通过矫正使其服从(0,1)标准正态分布。矫正的 Z 值即为 Reporter Score 值。当 Z < -1.65 或者 Z > 1.65 对应于 p < 0.05。

常见问题

Q:Venn 图和 UpSetR 的选择依据?

A:根据分组的数量来进行选择的,当分组数小于 5 个时可以选择 Venn 图或者 UpSetR,当分组数大于 5 时 Venn 图不能展示那么多的数据了,只能选择 UpSetR 来绘图。

Q:参数检验和非参数检验有什么依据?

A:如果数据符合正态分布应该优先选用参数检验,其次才是非参数检验,因为非参数检验没有参数检验灵敏。如果数据中含有极端值,但因为一些原因无法去除,可以选用非参数检验,非参数检验对数据的排名进行检验,极端值对检验结果影响较小。

Q:组间显著性差异分析结果的解读 。

A:组间的差异分析是在不同的物种分类层级上组与组之间的差异是否显著的分析;通常采用的是假设检验, 验证其差异评价数据(例如平均数)相等的概率即 p 值,对 p 值的校正得到 q 值, 根据 p 值 或 q 值来判断组间的差异是否具有显著性。

Q:统计检验 p 值含义?

A:p 是统计检验 H0H_0 成立的概率。统计检验会提出两个互斥的假设,H0H_0 称为零假设,H1H_1 称为备择假设,而显著性检验的目的就是通过计算 p 值决定是接受 H0H_0 拒绝 H1H_1,还是接受 H1H_1 拒绝 H0H_0。当 p < 0.05 时,H0H_0 成立的概率已经很小了,所以接受 H1H_1 拒绝 H0H_0

举个例子,检验某个物种在不同分组中丰度是否差异。首先提出假设

  • H0H_0:该物种在两个分组中没有差异
  • H1H_1:该物种在两个分组中有差异

然后使用 Wilcoxon 检验或 T-test 计算 p 值,这个 p 值表示的是 H0H_0 成立的概率。若 p < 0.05,此时 H0H_0 成立的概率很低,而我们认为低概率事情不可能发生,所以就拒绝 H0H_0,认为该物种在两个分组中有差异。

小贴士

除非特别说明,Dr.Tom 系统默认的差异阈值 p 值为 0.05。

Q:为什么有的比较组中没有差异分析结果?

A:差异分析要求至少 2 个分组,每个分组中的生物学重复应该大于等于 3。对于不符合样本数量的比较组,不会做差异分析。

Q:在富集分析中,两次自定义绘图或自定义绘图结果和已有结果之间,富集 Module 或 Pathway 和它对应的富集 p 值并不是完全一致,甚至富集结果中的数量都可能不一致,这是为什么?

A:这和富集分析的算法有关系,在富集分析时进行了置换检验,每次置换检验抽取的数据都是随机的,这会导致检验的结果有些许差异,而我们判断富集的标准固定的,因此富集到的 Module/Pathway 数量可能会发生变化。因此建议您关注那些差异比较明显的结果。

Q:什么是置换检验?

A:通过进行实验和采样,获得了研究对象的部分数据,然后用这个数据来描述我们需要研究对象的整体。我们知道采样的样本量越大,对整体的描述就越准确,但实际实验经过程中,因为各种原因常得到的样本数量有限。当样本量很小,分布未知,如何用来描述总体呢,这个时候就需要用到置换检验。

置换检验(Permutation test)本质上是重抽样方法,它将全部(或部分)样本数据随机抽样排列,然后将抽样获得的样本统计量和实际观测到的样本统计量进行比较,通过大量的置换(R 中默认 999 次),计算置换后的统计量大于实际观测到的统计量的概率,即为置换检验 p 值,根据 p 值进行统计推断。这个方法最初由 Fisher 在 20 世纪 30 年代提出。

提示

因为置换检验进行的是随机抽样,所以多次置换检验的结果并不完全一致。

参考文献


  1. Patil, K. R., & Nielsen, J. (2005). Uncovering Transcriptional Regulation of Metabolism by Using Metabolic Network Topology. Proceedings of the National Academy of Sciences, 102(8), 2685–2689. https://doi.org/10.1073/pnas.0406811102open in new window ↩︎