功能分布

Dr.Tom约 20 字小于 1 分钟

功能分布

除了微生物群落的物种分布情况,宏基因组测序还可以获得微生物群落的功能信息。和物种分布信息类似,功能信息数据也有很多,也需要通过合适的可视化手段,展示样本内的功能组成情况,便于进行样本/分组间的比较。常用的可视化方法有物种堆叠图、丰度热图、GraPhlAn 图、Circos 图、Krona 图、饼图。

堆叠图、饼图

堆叠图和饼图是传统的数据可视化工具,饼图只能展示一个样品/分组的数据,堆叠图可以展示多个样品/分组的数据。

丰度热图

热图用来展示不同物种在不同样品/分组中的分布情况,因为将不同物种、样品/分组放在一张图内,因此可以非常方便的比较物种之间和样品之间的差异。

Circos 图

Circos图open in new window [1](也叫和弦图,Chord diagram)将分组和物种组成画在同一个圆上,并且将物种组成和分组连接起来展示分组中不同微生物的组成和微生物在不同样本/分组中丰度差异。

常见问题

Q:在统计功能分布时,对数据做了什么处理?

A:通常,在一张图片显示太多的元素,会让这张图变得非常拥挤,我们很难从这样的图中得到有用的信息。基于此,需要对用于绘图的功能丰度数据进行筛选:

  • 归类到 others:符合筛选条件的数据直接保留,不符合条件的数据全部归类到 others 分类中。
  • 功能筛选:符合筛选条件的数据保留,不符合条件的直接舍弃。

筛选条件:

  • 相对丰度前 N 的功能
  • 相对丰度大于 m 的功能

请注意

功能 归类到others筛选 操作都是基于填写方案中的参数设定。但因为图形展示的原因,我们对部分图形最大展示功能的数量做了限定。具体请查看对应页面说明。

Q:热图聚类距离和聚类方法分别是什么?不同的距离和方法有什么不同?常用的距离和方法是什么?

A:聚类的目的是识别不连续对象的子集,换句话说聚类就是把数据集进行分组,微生物聚类的结果是具有嵌套结构的层级聚类树。大部分的聚类都是基于距离进行的,Dr.Tom 系统提供了六种聚类距离:euclidean,maximum,manhattan,canberra、binary 和 correlation。其计算公式和区别如下:

方法公式说明
euclideandeuc(x,y)=i=1n(xiyi)2d_{euc}(x,y) = \sqrt{\sum_{i=1}^n(x_i - y_i)^2}欧式距离:组间所有对象平方差的和平方根。
maximumDche(x,y)=miax(xiyi)D_{che}(x,y) = \underset{i} max(\vert x_i - y_i\vert)切比雪夫距离:即两群组各对象坐标数值差绝对值的最大值
manhattandman(x,y)=i=1n(xiyi)d_{man}(x,y) = \sum_{i=1}^n \vert{(x_i - y_i)\vert}曼哈顿距离:差绝对值之和。当群组对象数据类型比较多时,可选此距离,比如年龄、性别、高度
canberradcan(x,y)=i=1nXiYiXi+Yid_{can}(x,y) = \sum_{i=1}^{n}{\frac{\vert X_{i} - Y_{i}\vert } {\vert X_{i}\vert + \vert Y_{i}\vert }}堪培拉距离:当样本比较相似时,可以选用此距离
binarydbin(x,y)=1aa+b+cd_{bin}(x, y)=1-\frac{a}{a+b+c}雅卡尔相异度:a:在两样本中都存在的数量;b,在一个样本中存在的物种数量;c:在另一个样本中存在的物种数量;d:在两样本中都不存在的样本
correlationrx,y=cov(x,y)σxσyr_{x, y} = \frac{cov(x, y)}{\sigma_x\sigma_y}Pearson 相关性:在相关性热图时选用

参考文献:

  • Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.
  • Mardia, K. V., Kent, J. T. and Bibby, J. M. (1979) Multivariate Analysis. Academic Press.
  • Borg, I. and Groenen, P. (1997) Modern Multidimensional Scaling. Theory and Applications. Springer.
Q:热图聚类方法是什么?常用的方法是什么?

A:系统提供了基于连接的层次聚类、平均聚合聚类和最小方差聚类三类不同的方法。

  • 基于连接的层次聚类:基于两个群组内对象之间的最长或最短距离来确定对象的最近连接,包括单连接完全连接两种类型
  • 平均聚合聚类:按照是否计算权重(是否计算组内对象数量)和距离计算方法(平均距离:加入对象和已有对象距离的平均值;形心距离:距离的几何中心)有四种 UPGMAUPGMCWPGMAWPGMA 四种
  • 最小方差聚类:基于最小二乘法线性模型,使组内平方和最小化

每个类型的方法都包括至少两种具体的方法,下表列出了这些方法,方法中标记星号的表示该方法为宏基因组常用方法

类别方法特点
基于连接的层级聚类single *
complege *
平均聚合聚类UPGMA *算数平均 - 等权重
UPGMC算数平均 - 等权重
WPGMA形心聚类 - 不等权重
WPGMC形心聚类 - 不等权重
最小方差聚类ward.D
ward.D2

参考文献


  1. Krzywinski, M., Schein, J., Birol, İ., Connors, J., Gascoyne, R., Horsman, D., Jones, S. J., & Marra, M. A. (2009). Circos: An Information Aesthetic for Comparative Genomics. Genome Research, 19(9), 1639–1645. https://doi.org/10.1101/gr.092759.109open in new window ↩︎