组装、基因预测、去冗余

Dr.Tom约 25 字小于 1 分钟

组装

组装 (Assembly) 是将测序获得的 read 按照一定的算法拼接成长度较长的序列。这是因为二代测序的 read 一般都很短,而长序列可以提高下游分析的效率、准确率和 read 的利用率。

组装策略

MEGAHIT [1] 是一款基于 kk-mer 和 de Bruijn 组装策略的高效 read 组装工具,它能有效处理宏基因组测序中基因组不同区域(或来自不同物种的基因组)的测序深度不均匀的问题。

组装的评价标准

N50 表示的是将 Contig/Scaffold 长度从长到短进行排序并累加,当累加和达到 Contig/Scaffold 总长度 50% 时,最后参与加和的 Contig/Scaffold 长度即为 Contig/Scaffold N50,一般认为,它的长度越长(N50 越大)表示组装结果越好。类似的还有 N90 等 Nx,Nx 越大表示组装结果越好。

软件版本链接
MEGAHITopen in new window [1:1]1.2.9megahit --min-count 2 --k-min 93 --k-max 133 --k-step 10 --no-mercy --min-contig-len 200 --continue
注意:k-mink-max 的设置和读长有关,
- PE100,--k-min=53,--k-max=93;
- PE150,--k-min=93,--k-max=133

基因预测

原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,我们采用 MetaGeneMark [2] 进行宏基因组基因的从头预测。从头预测是根据给定的序列特征来预测,主要依赖编码区和非编码区所拥有不同的特征信息,在统计学上进行描述以构建概率模型,来区别编码与非编码区。从头预测能够预测出已知的和未知的基因。

软件版本默认命令
MetaGeneMarkopen in new window [2:1]3.38gmhmmp -a -d -f G -m MetaGeneMark_v1.mod

去冗余

对各样品的基因预测结果,需进行去冗余处理。CD-HIT [3] 采用一种贪婪的增量聚类方法,首先对输入的序列按照从长到短的顺序进行排序,最长的序列分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较。根据序列相似性(一般设定 identity 阈值为 95%,coverage 阈值为 90%)将其归为其中的一类或使其成为新的聚类代表序列,如此遍历所有序列完成聚类过程,即去冗余。

软件版本默认命令
CD-HITopen in new window [3:1]4.8.1cd-hit-est -aS 0.9 -c 0.95 -d 0 -g 1

基因丰度构建

构建了非冗余基因集之后,使用统一的指标 TPM(Transcripts Per Million)来度量不同基因的丰度。TPM 相对于原始测序数据,先进行了基因长度标准化和测序深度标准化,其计算公式如下:

TPMi=Xili~(1Xili~)106 TPM_i = \frac{X_i}{\widetilde{l_i}} * \left( \frac{1}{\sum \frac{X_i}{\widetilde{l_i}}} \right) * 10{^6}

ii:第 ii 个基因
li{l_i}:第 ii 个基因长度
Xi{X_i}:比对到第 ii 个基因上的 read 数

某个样本中某个基因的 TPM 计算过程:

  1. 将比对到该基因的 read 数除以该基因的长度(外显子区域的长度,单位为 kb),此时得到每千个碱基包含的 read 数,即(Reads Per Kilobase, RPK);
  2. 将一个样本中的 RPK 加起来的总数除以10的6次方,得到 "per million" 缩放系数;
  3. 用 RPK 除以 "per million" 缩放系数,得到 TPM。

基因丰度的构建使用 Salmon 软件 [4]

软件版本默认命令
Salmonopen in new window [4:1]1.6.0salmon quant -l A --validateMappings

相关信息

基因丰度表,随 Clean Data 一起交付,基因丰度表中的样品名是送样时的名称或二次确认的样品名。路径为

  • GeneAnalysis/Abundance/gene.relative.xls:基因相对丰度表
  • GeneAnalysis/Abundance/gene.absolute.xls:基因绝对丰度表

常见问题

Q:TPM 能否用于不同样本之间的比较?

A:可以。根据 TPM 的原理,不同样本中所有基因 TPM 之和相等,因此 TPM 类似于物种注释结果中的相对丰度,是可以在不同样品/分组间进行比较的。

参考文献


  1. Li, D., Liu, C.-M., Luo, R., Sadakane, K., & Lam, T.-W. (2015). MEGAHIT: An Ultra-Fast Single-Node Solution for Large and Complex Metagenomics Assembly Via Succinct De Bruijn Graph. Bioinformatics, 31(10), 1674–1676. https://doi.org/10.1093/bioinformatics/btv033open in new window ↩︎ ↩︎

  2. Zhu, W., Lomsadze, A., & Borodovsky, M. (2010). Ab Initio Gene Identification in Metagenomic Sequences. Nucleic Acids Research, 38(12), e132. https://doi.org/10.1093/nar/gkq275open in new window ↩︎ ↩︎

  3. Li, W., Jaroszewski, L., & Godzik, A. (2001). Clustering of Highly Homologous Sequences to Reduce the Size of Large Protein Databases. Bioinformatics (Oxford, England), 17(3), 282–283. https://doi.org/10.1093/bioinformatics/17.3.282open in new window ↩︎ ↩︎

  4. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., & Kingsford, C. (2017). Salmon Provides Fast and Bias-Aware Quantification of Transcript Expression. Nature Methods, 14(4), 417–419. https://doi.org/10.1038/nmeth.4197open in new window ↩︎ ↩︎