物种 Alpha 多样性

Dr.Tom约 22 字小于 1 分钟

物种 Alpha 多样性

群落内物种多样性的描述

Alpha 多样性 [1](α多样性,Alpha diversity,α-diversity)关注生境内(within-habitatdiversity)或样本中(within-sample)的物种组成情况,是微生物生态 / 微生物群落分析中的一项重要内容。Alpha 多样性分析包括计算一系列多样性指数,这些指数反映微生物群落中物种的数量多少,分布是否均匀。通过显著性检验还可以比较不同生境内样本差异是否显著。

  • 丰富度(Community richness)描述了环境样本中物种类型的多寡。
  • 均匀度(Community eveness)描述了环境中微生物群落的物种否均匀,即相对丰度如何。
  • 多样性(Community diversity)综合考虑群落物种的丰富度和均匀度。

Alpha 多样性计算的内容可以是基因、物种。

丰富度

假设 A、B、C 三个群落中有物种1、物种2、物种3 三个物种,其分布如下

物种1物种2物种3
群落 A-
群落 B-
群落 C

“-” 表示群落中不含该物种,此时认为 丰富C>丰富B=丰富A丰富度_C > 丰富度_B = 丰富度_A 。描述群落丰富度的指数有 Chao1 指数 [2] 和 ACE 指数 [3],指数越大表示丰富度越高。

Chao1 指数适合丰度数据,如宏基因基因丰度和物种丰度。但 Chao1 算法对低丰度的数据比较敏感,也就是说低丰度的物种数据对 Chao1 指数影响比较大。Chao1 值越大代表物种总数越多。

Schao1=Sobs+n1(n11)2(n2+1) S_{chao1} = S_{obs} + \frac{n_1(n_1-1)}{2(n_2+1)}

SobsS_{obs}:实际观测到的物种数

n1n_1:只观测到一次的物种(singletons)数目

n2n_2:只观测到两次的物种(doubletons)数目

ACE 指数是另一个用来表示物种丰富度指标,其公式:

Sace=Sabund+SrareCace+F1Caceγace2 S_{ace}=S_{abund}+\frac{S_{rare}}{C_{ace}}+ \frac{F_1}{C_{ace}}\gamma^2_{ace}

其中

γace2=max[SrareCacei=110i(i1)Fi(Nrare)(Nrare1)1,0] \gamma^2_{ace}=max\left[\frac{S_{rare}}{C_{ace}} \frac{\sum^{10}_{i=1}{i * \left(i-1\right)}F_i} {\left(N_{rare}\right)\left(N_{rare}-1\right)} -1,0\right]

Nrare=i=1abundini N_{rare} = \sum_{i=1}^{abund}in_i

Cace=1F1Nrare C_{ace} = 1-\frac{F1}{N_{rare}}

SabundS_{abund}:高丰度(超过低丰度阈值)物种数量

SrareS_{rare}:低丰度(小于等于低丰度阈值)物种数量

ii:第 i 个物种

F1F_1:只观测到一次的物种(singletons)数目

FiF_i:第 i 个物种的丰度

均匀度

假设甲、乙两个群落中有A、B 两种物种,其分布如下:

物种A物种B
群落甲55
群落乙28

此时 丰富度=丰富度\text{丰富度}_\text{甲} = \text{丰富度}_\text{乙},但均匀度>均匀度\text{均匀度}_\text{甲} > \text{均匀度}_\text{乙}。描述均匀度的指数有 Pielou 均匀度(Pielou’s evenness)[4] 和 Simpson 均匀度(Simpson’sevenness)[5]

Pielou 均匀度又称香农均匀度(Shannon’s evenness)是群落实际的香农指数与具有相同物种丰富度的群落中能够获得的最大香农指数的比值;如果所有物种具有相同的相对丰度,则该值为1。

J=HHmax=HlogxS J = \frac{H}{H_{max}} = \frac{H}{log_{x}S}

HH:Shannon指数

HmaxH_{max}:在物种丰富度相同的情况下,能够达到的最大 Shannon 指数(即当群落中所有物种丰度完全一致时)

SS:群落物种丰富度指数

xx:通常 x=ex = e,此时指数可称为 Pielou_e

Simpson 均匀度(Simpson’s evenness),又称 equitability,表示为 Simpson 有效物种数(即 Simpson 多样性)与物种丰富度指数的比值。

equitability=DensS equitability = \frac{D_{ens}}{S}

DensD_{ens}:Simpson有效物种数

SS:群落物种丰富度指数

多样性

宏基因组分析中最常用的指数是 Shannon 指数 [6] 和Simpson指数 [5:1] ,他们综合考虑群落物种的丰富度和均匀度。

Shannon 指数也称香农熵指数 (Shannon entropy index)、香农-威纳指数 (Shannon-Wiener index),综合考虑了群落的丰富度和均匀度。 样品的 Shannon 指数大,表明样品中的物种丰富度大和均匀度高。

Hshannon=i=1SobsniNlnniN H_{shannon} = -\sum_{i=1}^{S_{obs}}\frac{n_i}{N}ln\frac{n_i}{N}

SobsS_{obs}:实际测量出的 OTU 数目

nin_i:含有 i 条序列的 OTU 数目

NN:序列总数

Simpson 指数是用来估算样品中微生物多样性指数之一,描述从一个群落种连续两次抽样所得到的个体数属于同一种的概率。但样品中的共有物种和优势物种对该指数的影响比较大,也就是说,样品中低丰度的并不会对该指数造成很大的影响。计算公式如下:

D=pi2 D = \sum{p_i^2}

pip_i:第 i 个物种的相对丰度

这种公式计算出来的 Simpson 指数取值范围为 [0, 1],且取值越大,多样性反而越小,这样和我们直觉是相反的,因此常用 1D1 - D 来表示 Simpson 指数。

Dr.Tom 宏基因组使用 Simpson 计算公式为

S=1pi2 S = 1 - \sum{p_i^2}

pip_i:第 i 个物种的相对丰度

因此系统内 Simpson 指数越大,物种的多样性越高。

假设检验

多样性指数描述了样本内的微生物群落多样性,但不同样品之间的多样性差异如何则需要进行假设检验(也常被称为显著性检验)。常用的参数检验方法为 T 检验/方差分析,常用的非参数检验方法为 Wilcoxon/Kruskal-Wallis 检验。

  • 参数检验:需要假定样本符合特定分布(通常为正态分布)然后对参数平均值、方差进行的统计检验。比较组数量等于 2 时,常用 T 检验,比较组数量大于 2 时,常用方差分析。
  • 非参数检验:当无法判断样本属于何种分布,首先按照一定排序规则对样本排序,然后对排名进行统计检验。该方法对数据分布没有要求,但其灵敏度会低于参数检验。比较组数量等于 2 时,常用 Wilcoxon,比较组数量大于 2 时,常用 Kruskal-Wallis。

显著性检验的零假设 H0H_0 是两个样本的多样性指数无差异。通常认为当显著性检验结果 p < 0.05 时,拒绝零假设,此时认为两样品 α 多样性差异显著。

数据可视化

Dr.Tom 系统使用箱线图对 Alpha 多样性分析结果可视化。

常见问题

Q:Alpha 多样性统计检验具体用的方法是什么?

A:根据选用的方法和比较组的数量具体的统计检验方法如下:

参数检验非参数检验
分组数=2T 检验Wilcoxon
分组数>2方差分析Kruskal-Wallis

参考文献


  1. Whittaker, R. H. (1960). Vegetation of the Siskiyou Mountains, Oregon and California. Ecological Monographs, 30(3), 279–338. https://doi.org/10.2307/1943563open in new window ↩︎

  2. Colwell, R. K., Mao, C. X., & Chang, J. (2004). Interpolating, Extrapolating, and Comparing Incidence-Based Species Accumulation Curves. Ecology, 85(10), 2717–2727. https://doi.org/10.1890/03-0557open in new window ↩︎

  3. Chao, A., & Yang, M. C. K. (1993). Stopping Rules and Estimation for Recapture Debugging with Unequal Failure Rates. Biometrika, 80(1), 193–201. https://doi.org/10.1093/biomet/80.1.193open in new window ↩︎

  4. Pielou, E. C. (1966). The Measurement of Diversity in Different Types of Biological Collections. Journal of Theoretical Biology, 13, 131–144. https://doi.org/10.1016/0022-5193(66)90013-0open in new window ↩︎

  5. Simpson, E. H. (1949). Measurement of Diversity. Nature, 163(4148), 688–688. https://doi.org/10.1038/163688a0open in new window ↩︎ ↩︎

  6. Shannon, C. E. (2001). A Mathematical Theory of Communication. ACM SIGMOBILE Mobile Computing and Communications Review, 5(1), 3–55. ↩︎