组装、基因预测、去冗余
组装
组装 (Assembly) 是将测序获得的 read 按照一定的算法拼接成长度较长的序列。这是因为二代测序的 read 一般都很短,而长序列可以提高下游分析的效率、准确率和 read 的利用率。
组装策略
MEGAHIT [1] 是一款基于 -mer 和 de Bruijn 组装策略的高效 read 组装工具,它能有效处理宏基因组测序中基因组不同区域(或来自不同物种的基因组)的测序深度不均匀的问题。
组装的评价标准
N50 表示的是将 Contig/Scaffold 长度从长到短进行排序并累加,当累加和达到 Contig/Scaffold 总长度 50% 时,最后参与加和的 Contig/Scaffold 长度即为 Contig/Scaffold N50,一般认为,它的长度越长(N50 越大)表示组装结果越好。类似的还有 N90 等 Nx,Nx 越大表示组装结果越好。
软件 | 版本 | 链接 |
---|---|---|
MEGAHIT [1:1] | 1.2.9 | megahit --min-count 2 --k-min 93 --k-max 133 --k-step 10 --no-mercy --min-contig-len 200 --continue 注意: k-min 和 k-max 的设置和读长有关,- PE100,--k-min=53,--k-max=93; - PE150,--k-min=93,--k-max=133 |
基因预测
原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,我们采用 MetaGeneMark [2] 进行宏基因组基因的从头预测。从头预测是根据给定的序列特征来预测,主要依赖编码区和非编码区所拥有不同的特征信息,在统计学上进行描述以构建概率模型,来区别编码与非编码区。从头预测能够预测出已知的和未知的基因。
软件 | 版本 | 默认命令 |
---|---|---|
MetaGeneMark [2:1] | 3.38 | gmhmmp -a -d -f G -m MetaGeneMark_v1.mod |
去冗余
对各样品的基因预测结果,需进行去冗余处理。CD-HIT [3] 采用一种贪婪的增量聚类方法,首先对输入的序列按照从长到短的顺序进行排序,最长的序列分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较。根据序列相似性(一般设定 identity 阈值为 95%,coverage 阈值为 90%)将其归为其中的一类或使其成为新的聚类代表序列,如此遍历所有序列完成聚类过程,即去冗余。
软件 | 版本 | 默认命令 |
---|---|---|
CD-HIT [3:1] | 4.8.1 | cd-hit-est -aS 0.9 -c 0.95 -d 0 -g 1 |
基因丰度构建
构建了非冗余基因集之后,使用统一的指标 TPM(Transcripts Per Million)来度量不同基因的丰度。TPM 相对于原始测序数据,先进行了基因长度标准化和测序深度标准化,其计算公式如下:
:第 个基因
:第 个基因长度
:比对到第 个基因上的 read 数
某个样本中某个基因的 TPM 计算过程:
- 将比对到该基因的 read 数除以该基因的长度(外显子区域的长度,单位为 kb),此时得到每千个碱基包含的 read 数,即(Reads Per Kilobase, RPK);
- 将一个样本中的 RPK 加起来的总数除以10的6次方,得到 "per million" 缩放系数;
- 用 RPK 除以 "per million" 缩放系数,得到 TPM。
基因丰度的构建使用 Salmon 软件 [4] 。
软件 | 版本 | 默认命令 |
---|---|---|
Salmon [4:1] | 1.6.0 | salmon quant -l A --validateMappings |
相关信息
基因丰度表,随 Clean Data 一起交付,基因丰度表中的样品名是送样时的名称或二次确认的样品名。路径为
- GeneAnalysis/Abundance/gene.relative.xls:基因相对丰度表
- GeneAnalysis/Abundance/gene.absolute.xls:基因绝对丰度表
常见问题
Q:TPM 能否用于不同样本之间的比较?
A:可以。根据 TPM 的原理,不同样本中所有基因 TPM 之和相等,因此 TPM 类似于物种注释结果中的相对丰度,是可以在不同样品/分组间进行比较的。
参考文献
Li, D., Liu, C.-M., Luo, R., Sadakane, K., & Lam, T.-W. (2015). MEGAHIT: An Ultra-Fast Single-Node Solution for Large and Complex Metagenomics Assembly Via Succinct De Bruijn Graph. Bioinformatics, 31(10), 1674–1676. https://doi.org/10.1093/bioinformatics/btv033 ↩︎ ↩︎
Zhu, W., Lomsadze, A., & Borodovsky, M. (2010). Ab Initio Gene Identification in Metagenomic Sequences. Nucleic Acids Research, 38(12), e132. https://doi.org/10.1093/nar/gkq275 ↩︎ ↩︎
Li, W., Jaroszewski, L., & Godzik, A. (2001). Clustering of Highly Homologous Sequences to Reduce the Size of Large Protein Databases. Bioinformatics (Oxford, England), 17(3), 282–283. https://doi.org/10.1093/bioinformatics/17.3.282 ↩︎ ↩︎
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., & Kingsford, C. (2017). Salmon Provides Fast and Bias-Aware Quantification of Transcript Expression. Nature Methods, 14(4), 417–419. https://doi.org/10.1038/nmeth.4197 ↩︎ ↩︎