功能关联分析
功能 环境因子关联分析
相关关系
研究中涉及的对象之间有错综复杂的联系,这些联系有的紧密,有的稀松。表达相互联系事物的联系有两种方式:相关关系和回归关系(函数关系)。相关关系不是确定关系,当一个或几个事物的取值发生变化时,与它(它们)有联系的事物的取值也会发生变化,但变化值不是确定的数值。回归关系是一种确定关系,通过一个或几个事物的取值能够得到另一个事物的取值,这是通过回归方程(函数方程)实现的。相关关系中两个变量的地位是一样的,并不是因为一个变量发生变化而导致另一个变量发生变化,所以相关关系并不表示因果关系,而回归关系人为定义了自变量和因变量,自变量和因变量是根据物理量的现实关系来确定的,因此回归关系通常是有因果关系的。基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
在实际的研究中,相关性计算通常是基于实验取得的样本数据,当需要将这个样本数据推广到群体时(群体中的某个差异是否由相关数据的变异引起),需要进行统计推断。
样本:总体的一部分,通常表示实验采样,是可以获得的数据
总体:所有的样本数据,通常是难以获得的
相关关系分类
相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。
- 按照相关关系形态划分,可以分为线性相关和非线性相关。当一个变量的值发生变化时,另外一个变量也发生大致相同的变化。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
- 还有一种相关关系的划分原则是按照变量的个数划分,可以分为单相关,复相关和偏相关。单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。
两变量相关分析
两变量相关分析是分析对象(样本)内变量两两之间的相关程度(一个变量的变化和另一个变量变化相近或相反的程度),如环境样本中某种微生物的丰度和环境 PH 是否相关,PH 和温度是否相关。需要注意是无论相关性强度如何,相关关系并不能表示因果关系。
相关系数
两个变量的相关性通过相关系数进行描述,常用的相关系数有 Pearson 相关系数(适用于定量数据,且数据满足正态分布,线性相关)、Spearman 相关系数(定量或等级数据,任何分布模式,非线性相关)、Kendall 相关系数(有序定类变量,非线性相关)。相关性分析计算结果是没有单位的,因此不同数据类型之间的同种相关性是可以直接比较的。此处仅介绍宏基因组分析中常用的 Pearson 相关系数和 Spearman 相关系数。
Pearson 相关系数计算
Pearson 相关系数(Pearson correlation coefficient)用于度量两个连续变量之间的线性相关程度,用字母 (样本间,实验取样样本数据)或希腊字母 (群体间,某实验组的所有样本)表示。其取值范围是 ,取值为 1 时表示正线性相关性,取值为 0 时表示非线性相关性,取值为 -1 时表示负线性相关性。在使用 Pearson 相关系数时,应该注意如下使用条件:
- 两个变量之间需要存在线性相关关系,因为在非线性相关中,Pearson 相关系数的大小不能表示相关性的强弱。
- Pearson 相关系数要求相应的变量呈双变量正态分布。双变量正态分布并非简单的要求 x 变量和 y 变量各自服从正态分布,而是要求服从一个联合的双变量正态分布。
Pearson 相关系数的计算公式如下:
:变量 x,y 的协方差
:变量 x 标准差
:变量 y 的标准差
另外还需注意:
- 若样本中的极端值对 Pearson 相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔除,或者进行变量转换以避免异常数值导致结论错误
- 变量不能有缺失值,有缺失值的变量无法进行计算
- 若其中一个变量没有发生变化,其标准差为 0,此时计算公式中的分母为 0,无法计算结果,因此任变量不能完全相同
Spearman 相关系数
Sperman 相关系数 [1] 使用两变量的秩次大小为分析依据,因此对原始变量的分布没有要求,即使原始数据是等级资料(如两种药物对某种疾病症状的疗效等级:无效、好转、显效)也可以计算 Spearman 相关系数。对于服从 Pearson 相关系数的数据也可以计算 Spearman 相关系数,但统计效能比 Pearson 相关系数要低一些(不容易检测出两者事实上存在的相关关系)。如果数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关系数则为 +1 或 −1。Spearman 相关系数即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对 Spearman 相关性系数的影响也非常小。Spearman 相关系数用希腊字母 (rho) 表示。
计算公式:
:成对指标X,Y的秩次差
:变量中数据的个数
相关系数统计推断
为了将样本相关性 推广到总体相关性 ,需要进行统计推断。
- Pearson 系数:当样本量(n > 30)很大时相关系数 r 服从正态分布,否则认为样本服从 t 分布,因此统计推断使用的统计量是 t。
- Spearman 系数:
其零假设 为两样本不相关,即 = 0,备择假设 为两样本相关。t 的计算公式如下:
:相关系数
:样本量
t 符合自由度为 n-2 的 t 分布,根据 t 值和自由度在 t 值分布表中即可找到对应的 值,通常认为 ,两者显著相关。
请注意:
- 相关性强( )的两变量,其相关关系并不一定显著;同理,相关性弱,也不一定相关关系不显著。尤其是当样本量比较少的时候,可能会错误拒绝零假设,即认为犯了显著检验的 Ⅰ 型错误。因此当样本量较少时应该谨慎得出显著相关的结论。
- 另外,还需注意显著检验使用的是单尾还是双尾。微生物分析中中常用的是双尾检验。
线性回归
在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。线性回归(Linear Regression)是利用数理统计中回归分析,来确定一个或多个自变量和因变量之间关系的一种统计分析方法。环境因子排序回归分析,以环境因子大小作为 x 轴,根据排序分析如 PCA 分析等结果的第一排序轴上的分值或 Alpha 多样性指数大小为 y 轴,并进行线性回归(Linear Regression),做散点图,标注 R2,可用于评价二者间的关系。其中 R2 为决定系数,代表变异被回归直线解释的比例。为了使分析效果较好,样品个数应越多越好,建议 10 个样品以上。
两矩阵相关分析
CCA / RDA
CCA 或 RDA 是基于对应分析发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。此分析是主要用来反映菌群与环境因子之间关系。RDA 是基于线性模型,CCA 是基于单峰模型。分析可以检测环境因子、样本、菌群三者之间的关系或者两两之间的关系。CCA 和 RDA 的结果图中使用点代表不同的样本,从原点发出的箭头代表不同的环境因子。箭头的长度代表该环境因子对群落变化影响的强度,箭头的长度越长,表示环境因子的影响越大。箭头与坐标轴的夹角代表该环境因子与坐标轴的相关性,夹角越小,代表相关性越高。
RDA 或 CCA 模型的选择原则:先用功能丰度表做 DCA 分析,看分析结果中 Lengths of gradient 第一轴的大小,如果大于 4.0,就应该选 CCA;如果 3.0-4.0 之间,选 RDA 和 CCA 均可(本分析 ≧ 3.5 选择 CCA);如果小于 3.0,RDA 的结果要好于 CCA。
(1)通过 bioenv 函数判断环境因子与样本功能分布差异的最大 Pearson 相关系数,通过最大相关系数得到环境因子子集。
(2)将样本功能丰度表与环境因子或环境因子子集分别做 CCA 或者 RDA 分析。
(3)通过类似于 ANOVA 的 permutest 分析来判断 CCA 或者 RDA 分析的显著性。
Mantel Test
Mantel test 是以 Nathan Mantel 命名的统计学检验方法,首次发表于 1967 年 [2]。Mantel test 关注两个相同维度矩阵的相关关系,在生态数据中应用广泛,常用来分析样品丰度距离矩阵和环境因子距离矩阵的相关关系,此时检验的目标是样本之间的变异是否和环境因子变异相关。
常见问题
Q:怎样选择用 CCA 还是 RDA 来进行环境因子对群落结构影响的展示?
A:RDA 或 CCA 模型的选择原则:RDA 是基于线性模型,CCA 是基于单峰模型。一般会选择 CCA 来做直接梯度分析。但是如果 CCA 排序的效果不太好,就可以考虑用 RDA 分析。
先用物种丰度数据做 DCA(Detrended Correspondence Analysis) 分析,分析结果中 Lengths of Gradient 的第一轴的大小。如果大于 4.0,就应该选 CCA;如果 3.0-4.0 之间,选 RDA 和 CCA 均可;如果小于 3.0,RDA 的结果要好于 CCA。
Q:CCA 和 RDA 环境因子数必须小于样本数的原因是什么?
A:二者都属于约束性排序, CCA 属于非线性模型;RDA 属于线性模型;先看 PCA 的排序, 其未设置环境因子是一种非限制性, 所找到的主成分是可以说一种未知的环境变量; 而约束性排序是指在特定的环境变量(环境因子)上进行排序,即提供坐标轴方向进行排序; 如有n个样品,提供n个坐标方向,就起不到这种特定方向的约束的作用了。
参考文献:
Legendre, P. and L. Legendre (2012). Numerical Ecology, 3rd English ed. Amsterdam: Elsevier Science BV.
Q:CCA 和 RDA 的变量要求是具体数值的原因是什么?
A:CCA 和 RDA 是环境因子的关联性分析,算法模型要求环境因子数据是连续性的(数据是有大小、顺序的数字),比如测定的 pH 值,温度等。 同时非连续型变量不能作为环境因子数据;比如说:对比用药组和对照组的不同,这是将加入了药物记为 1, 没有加入的记为 0,这类变量属于非连续性变量 (或者叫离散型),可以作为分组变量。
Q:Pearson 相关系数和 Spearman 相关系数的区别?
A:Pearson 相关系数适用于定量数据,要求数据满足正态分布、数据之间有线性相关,Spearman 相关系数适用于定量或等级数据,数据符合任何分布模式均可,参与计算的数据通常为非线性相关。
小贴士
除非特别说明,Dr.Tom 默认使用的是 Spearnman 相关性系数,阈值为相关性系数绝对值大于 0.3 且 p 值小于 0.05
参考文献
Best, D. J., & Roberts, D. E. (1975). Algorithm AS 89: The Upper Tail Probabilities of Spearman’s Rho. Journal of the Royal Statistical Society. Series C (Applied Statistics), 24(3), 377–379. https://doi.org/10.2307/2347111 ↩︎
Mantel, N. (1967). The Detection of Disease Clustering and a Generalized Regression Approach. Cancer Research, 27(2), 209–220. ↩︎