组装、基因预测、去冗余

Dr.Tom约 25 字小于 1 分钟

组装

组装 (Assembly) 是将测序获得的 read 按照一定的算法拼接成长度较长的序列。这是因为二代测序的 read 一般都很短，而长序列可以提高下游分析的效率、准确率和 read 的利用率。

组装策略

MEGAHIT ^[1] 是一款基于 $k$ -mer 和 de Bruijn 组装策略的高效 read 组装工具，它能有效处理宏基因组测序中基因组不同区域（或来自不同物种的基因组）的测序深度不均匀的问题。

组装的评价标准

N50 表示的是将 Contig/Scaffold 长度从长到短进行排序并累加，当累加和达到 Contig/Scaffold 总长度 50% 时，最后参与加和的 Contig/Scaffold 长度即为 Contig/Scaffold N50，一般认为，它的长度越长（N50 越大）表示组装结果越好。类似的还有 N90 等 Nx，Nx 越大表示组装结果越好。

软件	版本	链接
MEGAHITopen in new window ^[1:1]	1.2.9	megahit --min-count 2 --k-min 93 --k-max 133 --k-step 10 --no-mercy --min-contig-len 200 --continue 注意：`k-min` 和 `k-max` 的设置和读长有关， - PE100，--k-min=53，--k-max=93； - PE150，--k-min=93，--k-max=133

基因预测

原核生物基因的各种信号位点（如启动子和终止子信号位点）特异性较强且容易识别，我们采用 MetaGeneMark ^[2] 进行宏基因组基因的从头预测。从头预测是根据给定的序列特征来预测，主要依赖编码区和非编码区所拥有不同的特征信息，在统计学上进行描述以构建概率模型，来区别编码与非编码区。从头预测能够预测出已知的和未知的基因。

软件	版本	默认命令
MetaGeneMarkopen in new window ^[2:1]	3.38	gmhmmp -a -d -f G -m MetaGeneMark_v1.mod

去冗余

对各样品的基因预测结果，需进行去冗余处理。CD-HIT ^[3] 采用一种贪婪的增量聚类方法，首先对输入的序列按照从长到短的顺序进行排序，最长的序列分为第一类并作为第一类的代表序列，然后将剩下的序列与在其之前发现的代表性序列进行比较。根据序列相似性（一般设定 identity 阈值为 95%，coverage 阈值为 90%）将其归为其中的一类或使其成为新的聚类代表序列，如此遍历所有序列完成聚类过程，即去冗余。

软件	版本	默认命令
CD-HITopen in new window ^[3:1]	4.8.1	cd-hit-est -aS 0.9 -c 0.95 -d 0 -g 1

基因丰度构建

构建了非冗余基因集之后，使用统一的指标 TPM（Transcripts Per Million）来度量不同基因的丰度。TPM 相对于原始测序数据，先进行了基因长度标准化和测序深度标准化，其计算公式如下：

TPM_i = \frac{X_i}{\widetilde{l_i}} * \left( \frac{1}{\sum \frac{X_i}{\widetilde{l_i}}} \right) * 10{^6}

$i$ ：第 $i$ 个基因
${l_i}$ ：第 $i$ 个基因长度
${X_i}$ ：比对到第 $i$ 个基因上的 read 数

某个样本中某个基因的 TPM 计算过程：

将比对到该基因的 read 数除以该基因的长度（外显子区域的长度，单位为 kb），此时得到每千个碱基包含的 read 数，即（Reads Per Kilobase, RPK）；
将一个样本中的 RPK 加起来的总数除以10的6次方，得到 "per million" 缩放系数；
用 RPK 除以 "per million" 缩放系数，得到 TPM。

基因丰度的构建使用 Salmon 软件 ^[4] 。

软件	版本	默认命令
Salmonopen in new window ^[4:1]	1.6.0	salmon quant -l A --validateMappings

常见问题

Q：TPM 能否用于不同样本之间的比较？

A：可以。根据 TPM 的原理，不同样本中所有基因 TPM 之和相等，因此 TPM 类似于物种注释结果中的相对丰度，是可以在不同样品/分组间进行比较的。

参考文献

Li, D., Liu, C.-M., Luo, R., Sadakane, K., & Lam, T.-W. (2015). MEGAHIT: An Ultra-Fast Single-Node Solution for Large and Complex Metagenomics Assembly Via Succinct De Bruijn Graph. Bioinformatics, 31(10), 1674–1676. https://doi.org/10.1093/bioinformatics/btv033open in new window ↩︎ ↩︎
Zhu, W., Lomsadze, A., & Borodovsky, M. (2010). Ab Initio Gene Identification in Metagenomic Sequences. Nucleic Acids Research, 38(12), e132. https://doi.org/10.1093/nar/gkq275open in new window ↩︎ ↩︎
Li, W., Jaroszewski, L., & Godzik, A. (2001). Clustering of Highly Homologous Sequences to Reduce the Size of Large Protein Databases. Bioinformatics (Oxford, England), 17(3), 282–283. https://doi.org/10.1093/bioinformatics/17.3.282open in new window ↩︎ ↩︎
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., & Kingsford, C. (2017). Salmon Provides Fast and Bias-Aware Quantification of Transcript Expression. Nature Methods, 14(4), 417–419. https://doi.org/10.1038/nmeth.4197open in new window ↩︎ ↩︎

组装、基因预测、去冗余

组装 #

组装策略 #

组装的评价标准 #

基因预测 #

去冗余 #

基因丰度构建 #

常见问题 #

Q：TPM 能否用于不同样本之间的比较？ #

参考文献 #

组装