基因多样性

Dr.Tom约 42 字小于 1 分钟

基因多样性和差异分析

基因 Alpha 多样性

群落内基因多样性的描述

Alpha 多样性 [1](α多样性,Alpha diversity,α-diversity)关注生境内(within-habitatdiversity)或样本中(within-sample)的基因组成情况,是微生物生态 / 微生物群落分析中的一项重要内容。Alpha 多样性分析包括计算一系列多样性指数,这些指数反映微生物群落中基因的数量多少,分布是否均匀。通过显著性检验还可以比较不同生境内样本差异是否显著。

  • 丰富度(Community richness)描述了环境样本中基因类型的多寡。
  • 均匀度(Community eveness)描述了环境中微生物群落的基因否均匀,即相对丰度如何。
  • 多样性(Community diversity)综合考虑群落基因的丰富度和均匀度。

Alpha 多样性计算的内容可以是基因、物种。

丰富度

假设 A、B、C 三个群落中有基因1、基因2、基因3 三个基因,其分布如下

基因1基因2基因3
群落 A-
群落 B-
群落 C

“-” 表示群落中不含该基因,此时认为 丰富C>丰富B=丰富A丰富度_C > 丰富度_B = 丰富度_A 。描述群落丰富度的指数有 Chao1 指数 [2] 和 ACE 指数 [3],指数越大表示丰富度越高。

Chao1 指数适合丰度数据,如宏基因基因丰度和物种丰度。但 Chao1 算法对低丰度的数据比较敏感,也就是说低丰度的基因数据对 Chao1 指数影响比较大。Chao1 值越大代表基因总数越多。

Schao1=Sobs+n1(n11)2(n2+1) S_{chao1} = S_{obs} + \frac{n_1(n_1-1)}{2(n_2+1)}

SobsS_{obs}:实际观测到的基因数

n1n_1:只观测到一次的基因(singletons)数目

n2n_2:只观测到两次的基因(doubletons)数目

ACE 指数是另一个用来表示基因丰富度指标,其公式:

Sace=Sabund+SrareCace+F1Caceγace2 S_{ace}=S_{abund}+\frac{S_{rare}}{C_{ace}}+ \frac{F_1}{C_{ace}}\gamma^2_{ace}

其中

γace2=max[SrareCacei=110i(i1)Fi(Nrare)(Nrare1)1,0] \gamma^2_{ace}=max\left[\frac{S_{rare}}{C_{ace}} \frac{\sum^{10}_{i=1}{i * \left(i-1\right)}F_i} {\left(N_{rare}\right)\left(N_{rare}-1\right)} -1,0\right]

Nrare=i=1abundini N_{rare} = \sum_{i=1}^{abund}in_i

Cace=1F1Nrare C_{ace} = 1-\frac{F1}{N_{rare}}

SabundS_{abund}:高丰度(超过低丰度阈值)基因数量

SrareS_{rare}:低丰度(小于等于低丰度阈值)基因数量

ii:第 i 个基因

F1F_1:只观测到一次的基因(singletons)数目

FiF_i:第 i 个基因的丰度

均匀度

假设甲、乙两个群落中有A、B 两种基因,其分布如下:

基因A基因B
群落甲55
群落乙28

此时 丰富度=丰富度\text{丰富度}_\text{甲} = \text{丰富度}_\text{乙},但均匀度>均匀度\text{均匀度}_\text{甲} > \text{均匀度}_\text{乙}。描述均匀度的指数有 Pielou 均匀度(Pielou’s evenness)[4] 和 Simpson 均匀度(Simpson’sevenness)[5]

Pielou 均匀度又称香农均匀度(Shannon’s evenness)是群落实际的香农指数与具有相同基因丰富度的群落中能够获得的最大香农指数的比值;如果所有基因具有相同的相对丰度,则该值为1。

J=HHmax=HlogxS J = \frac{H}{H_{max}} = \frac{H}{log_{x}S}

HH:Shannon指数

HmaxH_{max}:在基因丰富度相同的情况下,能够达到的最大 Shannon 指数(即当群落中所有基因丰度完全一致时)

SS:群落基因丰富度指数

xx:通常 x=ex = e,此时指数可称为 Pielou_e

Simpson 均匀度(Simpson’s evenness),又称 equitability,表示为 Simpson 有效基因数(即 Simpson 多样性)与基因丰富度指数的比值。

equitability=DensS equitability = \frac{D_{ens}}{S}

DensD_{ens}:Simpson有效基因数

SS:群落基因丰富度指数

多样性

宏基因组分析中最常用的指数是 Shannon 指数 [6] 和Simpson指数 [5:1] ,他们综合考虑群落基因的丰富度和均匀度。

Shannon 指数也称香农熵指数 (Shannon entropy index)、香农-威纳指数 (Shannon-Wiener index),综合考虑了群落的丰富度和均匀度。 样品的 Shannon 指数大,表明样品中的基因丰富度大和均匀度高。

Hshannon=i=1SobsniNlnniN H_{shannon} = -\sum_{i=1}^{S_{obs}}\frac{n_i}{N}ln\frac{n_i}{N}

SobsS_{obs}:实际测量出的 OTU 数目

nin_i:含有 i 条序列的 OTU 数目

NN:序列总数

Simpson 指数是用来估算样品中微生物多样性指数之一,描述从一个群落种连续两次抽样所得到的个体数属于同一种的概率。但样品中的共有基因和优势基因对该指数的影响比较大,也就是说,样品中低丰度的并不会对该指数造成很大的影响。计算公式如下:

D=pi2 D = \sum{p_i^2}

pip_i:第 i 个基因的相对丰度

这种公式计算出来的 Simpson 指数取值范围为 [0, 1],且取值越大,多样性反而越小,这样和我们直觉是相反的,因此常用 1D1 - D 来表示 Simpson 指数。

Dr.Tom 宏基因组使用 Simpson 计算公式为

S=1pi2 S = 1 - \sum{p_i^2}

pip_i:第 i 个基因的相对丰度

因此系统内 Simpson 指数越大,基因的多样性越高。

假设检验

多样性指数描述了样本内的微生物群落多样性,但不同样品之间的多样性差异如何则需要进行假设检验(也常被称为显著性检验)。常用的参数检验方法为 T 检验/方差分析,常用的非参数检验方法为 Wilcoxon/Kruskal-Wallis 检验。

  • 参数检验:需要假定样本符合特定分布(通常为正态分布)然后对参数平均值、方差进行的统计检验。比较组数量等于 2 时,常用 T 检验,比较组数量大于 2 时,常用方差分析。
  • 非参数检验:当无法判断样本属于何种分布,首先按照一定排序规则对样本排序,然后对排名进行统计检验。该方法对数据分布没有要求,但其灵敏度会低于参数检验。比较组数量等于 2 时,常用 Wilcoxon,比较组数量大于 2 时,常用 Kruskal-Wallis。

显著性检验的零假设 H0H_0 是两个样本的多样性指数无差异。通常认为当显著性检验结果 p < 0.05 时,拒绝零假设,此时认为两样品 α 多样性差异显著。

数据可视化

Dr.Tom 系统使用箱线图对 Alpha 多样性分析结果可视化。

常见问题

Q:Alpha 多样性统计检验具体用的方法是什么?

A:根据选用的方法和比较组的数量具体的统计检验方法如下:

参数检验非参数检验
分组数=2T 检验Wilcoxon
分组数>2方差分析Kruskal-Wallis

基因 Beta 多样性

距离和相似性

统计学上任何满足非负、自反和三角不等式的计算结果都可以称作距离,距离用来描述两个统计学对象的远近程度 [7],对象可以是坐标轴上的一个点或者多个点组成的群落。距离越远表明对象之间相差越大

当两个对象相近的属性越多表明两个对象越相似。如正多边形的边数和边长两个属性,若两个正多边形边数相等,则两者相似,若边数和边长都相等则两者全等。对于两个群落,群落的基因组成就是他们的属性,两个群落共有的基因数量越多,共有基因的相对丰度约接近,两个群落的相似性越大。相似性通过相似性指数描述,相似性指数越高则样本越相似

请注意

所有的相似性指数都可以转换成对应的距离,但并非所有的距离都可以转换成相似性指数。

Beta 多样性的本质

Beta 多样性 [1:1](Beta diversity)利用各样本丰度信息(基因、物种或功能)来计算样本间距离或相似性,通过距离反映样本(组)间(between-sample)或生境间(between-habitat diversity) 是否具有显著的微生物群落差异,又称生境间的多样性。

简单来说,Beta 多样性分析就是看样本之间的差异。

双零问题

微生物数据中经常出现某个微生物在两个样品中都没有检测到的情况,此时基因缺失(双零数据)的含义决定了它能否作为两个样本相似性的判断依据。有两种情况:

  • 两个采样地点都不符合该物种的生存条件,或者该物种从未扩散到此地。
  • 采样时样品中恰好没有包含该物种,或者该物种在样品中的含量过低丰度过低无法被注释出来。

双零数据在微生物生态中常常出现,如果双零数据的含义相同,则双零数据可以作为判断两者相似的依据。但宏基因组项目本身就是在探索未知的环境,因此双零数据在不同样品中的含义通常无法确定是否相同,并且随着被检测基因数量的增加,双零数据在样品间出现的概率也逐渐增加,这种不确定性也在增加。

对称和非对称被用来描述上述的双零问题,如双零数据含义相同则可以作为相似性判断的依据,称为对称,否则为非对称。在大部分情况下应该优先选择非对称,除非可以确定零数据的含义相同。

Beta 多样性度量

宏基因组项目通常采用欧式距离 [8](Euclidean distance)、Bray-Curtis 相异性指数(Bray-Curtis 距离)[9](Bray-curtis distance)和 JSD 距离(Jensen-Shannon divergence)来衡量样本(组) 间差异。多个样本之间互相计算距离,将距离信息放置在表格中组成一个距离矩阵,是 Beta 多样性分析的基础。

其中

欧式距离是对称指数(双零数据含义相同),另外两个为非对称指数。因此当样品对中有很多零值时应该谨慎使用欧式距离。

欧式距离

欧几里得距离是多变量分析中经常使用的一种距离,其计算公式如下:

Eij=n(SinSjn)2 E_{ij}= \sqrt {\sum_{n}(S_{in} - S_{jn})^2}

iijj:两个样本

nn:样本中第 n 个基因

SinS_{in}ii 样本中的第 nn 个基因的丰度

SjnS_{jn}jj 样本中的第 nn 个基因的丰度

根据公式可以得出,欧氏距离的大小取决于输入的丰度大小,其的取值范围为 [0,+][0, +\infty]。欧式距离越大表明两个样本差异越大。

Bray-Curtis 距离

Bray-Curtis 距离是计算微生物丰度差异最常用的距离之一,但是 Bray-Curtis 的计算方法并不符合距离定义中的三角不等式规定,因此它并不是严格意义上的距离,其准确的叫法是 Bray-Curtis 相异性指数,但为了符合现有的称呼,本报告也将其称作 Bray-Curtis 距离。

在计算 Bray-Curtis 距离时,在两个样本中都没有检测出来的样本会被忽略掉。其计算公式如下:

BCij=12CijSi+Sj BC_{ij} = 1-\frac{2C_{ij}}{S_i+S_j}

iijj:两个样本

CijC_{ij}:比较两个样本中每个基因的丰度,取所有基因相对较低的丰度求和。

SiS_iii 样本中所有基因的丰度之和

SjS_jjj 样本中所有基因的丰度之和

当使用相对丰度数据时,公式可以简化成

BCij=1Cij BC_{ij} = 1-C_{ij}

根据公式可以得出,Bray-Curtis 距离的取值范围为 [0,1][0, 1],当 BC=0BC=0 时表明两个样本的基因组成完全一致,当 BC=1BC=1 时表明两个样本中不存在共有基因。BC 值越小,表明两个样本的相似性越高,差异越小。

JSD 距离

JSD 距离(Jensen–Shannon divergence,JSD 散度)是从 KL 散度(Kullback–Leibler divergence)演变过来的用来描述概率分布的两样本相似差异的距离指标。

JSD 距离也是非对称指数,因此在两个样本中都没有检测到的样本会被忽略掉。其计算公式如下

JSD(PQ)=12D(PM)+12D(QM) JSD(P\parallel Q)= \frac{1}{2}D(P\parallel M) + \frac{1}{2}D(Q\parallel M)

其中,MM 的计算规则

M=12(P+Q) M = \frac{1}{2}(P+Q)

DD 的计算规则

D(PQ)=iP(i)lnP(i)Q(i) {D}(P\parallel Q)=\sum_{i} P(i)\ln \frac{P(i)}{Q(i)}

PP:第一个样本的丰度矩阵

P(i)P(i):第一个样本中第 ii 个基因的丰度

QQ:第二个样本的丰度矩阵

Q(i)Q(i):第二个样本中第 ii 个基因的丰度

根据公式可以得出,JSD 距离的取值范围为 [0,1][0, 1],JSD 值越小,表明两个样本的相似性越高,差异越小。

常见问题

Q:Bray-Curtis、JSD、欧氏距离有什么不同?如何选择?

A:欧式距离是对称指数,将双零数据视为相同的存在,另外两个是非对称指数,忽略双零数据。欧式距离的有一个特点是对数据的丰度数据的敏感性大于物种是否存在,并且欧式距离的计算方法决定了欧式距离的取值范围是无限大的。所以常用对于双零数据很多的物种丰度数据,选择 Bray-Curtis 和 JSD 会多一些,且 Bray-Curtis 相异性指数是最常用的指数。

参考文献


  1. Whittaker, R. H. (1960). Vegetation of the Siskiyou Mountains, Oregon and California. Ecological Monographs, 30(3), 279–338. https://doi.org/10.2307/1943563open in new window ↩︎ ↩︎

  2. Colwell, R. K., Mao, C. X., & Chang, J. (2004). Interpolating, Extrapolating, and Comparing Incidence-Based Species Accumulation Curves. Ecology, 85(10), 2717–2727. https://doi.org/10.1890/03-0557open in new window ↩︎

  3. Chao, A., & Yang, M. C. K. (1993). Stopping Rules and Estimation for Recapture Debugging with Unequal Failure Rates. Biometrika, 80(1), 193–201. https://doi.org/10.1093/biomet/80.1.193open in new window ↩︎

  4. Pielou, E. C. (1966). The Measurement of Diversity in Different Types of Biological Collections. Journal of Theoretical Biology, 13, 131–144. https://doi.org/10.1016/0022-5193(66)90013-0open in new window ↩︎

  5. Simpson, E. H. (1949). Measurement of Diversity. Nature, 163(4148), 688–688. https://doi.org/10.1038/163688a0open in new window ↩︎ ↩︎

  6. Shannon, C. E. (2001). A Mathematical Theory of Communication. ACM SIGMOBILE Mobile Computing and Communications Review, 5(1), 3–55. ↩︎

  7. Dodge, Y., Cox, D., & Commenges, D. (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press. ↩︎

  8. Legendre, P., & Legendre, L. (2012). Numerical ecology (Third English edition). Elsevier. ↩︎

  9. Bray, J. R., & Curtis, J. T. (1957). An Ordination of the Upland Forest Communities of Southern Wisconsin. Ecological Monographs, 27(4), 325–349. https://doi.org/10.2307/1942268open in new window ↩︎