质控和过滤
数据过滤
DNBSEQ 平台在测序建库过程中需要在 DNA 片段中添加 barcode 序列区分不同的文库,因此原始下机数据通常包含了 barcode 信息,这些信息并不是目的信息,需要去除。另外原始数据中还有可能包含低质量碱基、不确定碱基及长度过短序列,如果这些序列进入后续分析将会到影响到结果的可靠性。因此,在分析之前需要先使用 SOAPnuke 对原始测序数据进行质控过滤,从而得到高质量的质控数据(Clean data)以保证后续分析结果的准确性。SOAPnuke 对原始数据过滤的具体步骤如下:
- 剔除含有 0.1% 不确定碱基(N 碱基)的 read
- 剔除含有测序接头序列的 read
- 剔除含有 50% 以上的低质量碱基(Q < 20 的碱基)的 read
- 对于宿主环境来源的样品,为了降低宿主序列对后续分析的干扰,需要使用 Bowtie2 软件比对宿主序列,然后过滤掉比对上宿主基因组的序列(若样本来源为人、小鼠或大鼠,会根据来源直接过滤,否则需要提供宿主序列)
软件 | 版本 | 默认命令 |
---|---|---|
SOAPnuke [1] | 2.2.1 | SOAPnuke filter -l 20 -q 0.5 -n 0.001 -d -Q 2 -5 0 --adaMis 0.3 |
Bowtie2 [2] | 2.4.4 | 使用软件默认参数 |
常见问题
无
参考文献
Chen, Y., Chen, Y., Shi, C., Huang, Z., Zhang, Y., Li, S., Li, Y., Ye, J., Yu, C., Li, Z., Zhang, X., Wang, J., Yang, H., Fang, L., & Chen, Q. (2018). SOAPnuke: A MapReduce Acceleration-Supported Software for Integrated Quality Control and Preprocessing of High-Throughput Sequencing Data. GigaScience, 7(1). https://doi.org/10.1093/gigascience/gix120 ↩︎
Langmead, B., & Salzberg, S. L. (2012). Fast Gapped-Read Alignment with Bowtie 2. Nature Methods, 9(4), 357–359. https://doi.org/10.1038/nmeth.1923 ↩︎