功能关联分析

Dr.Tom约 22 字小于 1 分钟

功能环境因子关联分析

Pearson 相关系数（Pearson correlation coefficient）用于度量两个连续变量之间的线性相关程度，用字母 $r$ （样本间，实验取样样本数据）或希腊字母 $\rho$ （群体间，某实验组的所有样本）表示。其取值范围是 $[-1, +1]$ ，取值为 1 时表示正线性相关性，取值为 0 时表示非线性相关性，取值为 -1 时表示负线性相关性。在使用 Pearson 相关系数时，应该注意如下使用条件：

两个变量之间需要存在线性相关关系，因为在非线性相关中，Pearson 相关系数的大小不能表示相关性的强弱。
Pearson 相关系数要求相应的变量呈双变量正态分布。双变量正态分布并非简单的要求 x 变量和 y 变量各自服从正态分布，而是要求服从一个联合的双变量正态分布。

Pearson 相关系数的计算公式如下：

r_{x, y} = \frac{cov(x, y)}{\sigma_x\sigma_y}

$cov(x, y)$ ：变量 x，y 的协方差
$\sigma_x$ ：变量 x 标准差
$\sigma_y$ ：变量 y 的标准差

另外还需注意：

若样本中的极端值对 Pearson 相关系数的影响极大，因此要慎重考虑和处理，必要时可以对其进行剔除，或者进行变量转换以避免异常数值导致结论错误
变量不能有缺失值，有缺失值的变量无法进行计算
若其中一个变量没有发生变化，其标准差为 0，此时计算公式中的分母为 0，无法计算结果，因此任变量不能完全相同

Spearman 相关系数

Sperman 相关系数 ^[1] 使用两变量的秩次大小为分析依据，因此对原始变量的分布没有要求，即使原始数据是等级资料（如两种药物对某种疾病症状的疗效等级：无效、好转、显效）也可以计算 Spearman 相关系数。对于服从 Pearson 相关系数的数据也可以计算 Spearman 相关系数，但统计效能比 Pearson 相关系数要低一些（不容易检测出两者事实上存在的相关关系）。如果数据中没有重复值，并且当两个变量完全单调相关时，斯皮尔曼相关系数则为 +1 或 −1。Spearman 相关系数即使出现异常值，由于异常值的秩次通常不会有明显的变化（比如过大或者过小，那要么排第一，要么排最后），所以对 Spearman 相关性系数的影响也非常小。Spearman 相关系数用希腊字母 $\rho$ (rho) 表示。

计算公式：

\rho_{X, Y} = 1-\frac{6\sum_i{d_i^2}}{n(n^2-1)}

$d_i$ ：成对指标X，Y的秩次差
$n$ ：变量中数据的个数

线性回归

在数据分析中，一般先做相关关系的分析，待相关关系清楚以后，再进一步确定不同变量之间的函数关系（回归关系）。线性回归（Linear Regression）是利用数理统计中回归分析，来确定一个或多个自变量和因变量之间关系的一种统计分析方法。环境因子排序回归分析，以环境因子大小作为 x 轴，根据排序分析如 PCA 分析等结果的第一排序轴上的分值或 Alpha 多样性指数大小为 y 轴，并进行线性回归（Linear Regression），做散点图，标注 R2，可用于评价二者间的关系。其中 R2 为决定系数，代表变异被回归直线解释的比例。为了使分析效果较好，样品个数应越多越好，建议 10 个样品以上。

两矩阵相关分析

CCA / RDA

CCA 或 RDA 是基于对应分析发展而来的一种排序方法，将对应分析与多元回归分析相结合，每一步计算均与环境因子进行回归，又称多元直接梯度分析。此分析是主要用来反映菌群与环境因子之间关系。RDA 是基于线性模型，CCA 是基于单峰模型。分析可以检测环境因子、样本、菌群三者之间的关系或者两两之间的关系。CCA 和 RDA 的结果图中使用点代表不同的样本，从原点发出的箭头代表不同的环境因子。箭头的长度代表该环境因子对群落变化影响的强度，箭头的长度越长，表示环境因子的影响越大。箭头与坐标轴的夹角代表该环境因子与坐标轴的相关性，夹角越小，代表相关性越高。

RDA 或 CCA 模型的选择原则：先用功能丰度表做 DCA 分析，看分析结果中 Lengths of gradient 第一轴的大小，如果大于 4.0，就应该选 CCA；如果 3.0-4.0 之间，选 RDA 和 CCA 均可（本分析 ≧ 3.5 选择 CCA）；如果小于 3.0，RDA 的结果要好于 CCA。

（1）通过 bioenv 函数判断环境因子与样本功能分布差异的最大 Pearson 相关系数，通过最大相关系数得到环境因子子集。
（2）将样本功能丰度表与环境因子或环境因子子集分别做 CCA 或者 RDA 分析。
（3）通过类似于 ANOVA 的 permutest 分析来判断 CCA 或者 RDA 分析的显著性。

Mantel Test

Mantel test 是以 Nathan Mantel 命名的统计学检验方法，首次发表于 1967 年 ^[2]。Mantel test 关注两个相同维度矩阵的相关关系，在生态数据中应用广泛，常用来分析样品丰度距离矩阵和环境因子距离矩阵的相关关系，此时检验的目标是样本之间的变异是否和环境因子变异相关。

常见问题

Q：怎样选择用 CCA 还是 RDA 来进行环境因子对群落结构影响的展示？

A：RDA 或 CCA 模型的选择原则：RDA 是基于线性模型，CCA 是基于单峰模型。一般会选择 CCA 来做直接梯度分析。但是如果 CCA 排序的效果不太好，就可以考虑用 RDA 分析。

先用物种丰度数据做 DCA（Detrended Correspondence Analysis）分析，分析结果中 Lengths of Gradient 的第一轴的大小。如果大于 4.0，就应该选 CCA；如果 3.0-4.0 之间，选 RDA 和 CCA 均可；如果小于 3.0，RDA 的结果要好于 CCA。

Q：CCA 和 RDA 环境因子数必须小于样本数的原因是什么？

A：二者都属于约束性排序， CCA 属于非线性模型；RDA 属于线性模型；先看 PCA 的排序，其未设置环境因子是一种非限制性，所找到的主成分是可以说一种未知的环境变量；而约束性排序是指在特定的环境变量（环境因子）上进行排序，即提供坐标轴方向进行排序；如有n个样品，提供n个坐标方向，就起不到这种特定方向的约束的作用了。

参考文献：
Legendre, P. and L. Legendre (2012). Numerical Ecology, 3rd English ed. Amsterdam: Elsevier Science BV.

Q：CCA 和 RDA 的变量要求是具体数值的原因是什么？

A：CCA 和 RDA 是环境因子的关联性分析，算法模型要求环境因子数据是连续性的（数据是有大小、顺序的数字），比如测定的 pH 值，温度等。同时非连续型变量不能作为环境因子数据；比如说：对比用药组和对照组的不同，这是将加入了药物记为 1，没有加入的记为 0，这类变量属于非连续性变量 (或者叫离散型)，可以作为分组变量。

Q：Pearson 相关系数和 Spearman 相关系数的区别？

A：Pearson 相关系数适用于定量数据，要求数据满足正态分布、数据之间有线性相关，Spearman 相关系数适用于定量或等级数据，数据符合任何分布模式均可，参与计算的数据通常为非线性相关。

小贴士

除非特别说明，Dr.Tom 默认使用的是 Spearnman 相关性系数，阈值为相关性系数绝对值大于 0.3 且 p 值小于 0.05

参考文献

Best, D. J., & Roberts, D. E. (1975). Algorithm AS 89: The Upper Tail Probabilities of Spearman’s Rho. Journal of the Royal Statistical Society. Series C (Applied Statistics), 24(3), 377–379. https://doi.org/10.2307/2347111open in new window ↩︎
Mantel, N. (1967). The Detection of Disease Clustering and a Generalized Regression Approach. Cancer Research, 27(2), 209–220. ↩︎

功能关联分析

功能环境因子关联分析

相关关系

相关关系分类

两变量相关分析

相关系数

Pearson 相关系数计算

Spearman 相关系数

相关系数统计推断

线性回归

两矩阵相关分析

CCA / RDA

Mantel Test

常见问题

Q：怎样选择用 CCA 还是 RDA 来进行环境因子对群落结构影响的展示？

Q：CCA 和 RDA 环境因子数必须小于样本数的原因是什么？

Q：CCA 和 RDA 的变量要求是具体数值的原因是什么？

Q：Pearson 相关系数和 Spearman 相关系数的区别？

参考文献

功能关联分析

功能 环境因子关联分析 #

相关关系 #

相关关系分类 #

两变量相关分析 #

相关系数 #

Pearson 相关系数计算 #

Spearman 相关系数 #

相关系数统计推断 #

线性回归 #

两矩阵相关分析 #

CCA / RDA #

Mantel Test #

常见问题 #

Q：怎样选择用 CCA 还是 RDA 来进行环境因子对群落结构影响的展示？ #

Q：CCA 和 RDA 环境因子数必须小于样本数的原因是什么？ #

Q：CCA 和 RDA 的变量要求是具体数值的原因是什么？ #

Q：Pearson 相关系数和 Spearman 相关系数的区别？ #

参考文献 #

功能环境因子关联分析

相关关系

相关关系分类

两变量相关分析

相关系数

Pearson 相关系数计算

Spearman 相关系数

相关系数统计推断

线性回归

两矩阵相关分析

CCA / RDA

Mantel Test

常见问题

Q：怎样选择用 CCA 还是 RDA 来进行环境因子对群落结构影响的展示？

Q：CCA 和 RDA 环境因子数必须小于样本数的原因是什么？

Q：CCA 和 RDA 的变量要求是具体数值的原因是什么？

Q：Pearson 相关系数和 Spearman 相关系数的区别？

参考文献