质控和过滤

Dr.Tom约 21 字小于 1 分钟

数据过滤

DNBSEQ 平台在测序建库过程中需要在 DNA 片段中添加 barcode 序列区分不同的文库，因此原始下机数据通常包含了 barcode 信息，这些信息并不是目的信息，需要去除。另外原始数据中还有可能包含低质量碱基、不确定碱基及长度过短序列，如果这些序列进入后续分析将会到影响到结果的可靠性。因此，在分析之前需要先使用 SOAPnuke 对原始测序数据进行质控过滤，从而得到高质量的质控数据（Clean data）以保证后续分析结果的准确性。SOAPnuke 对原始数据过滤的具体步骤如下：

剔除含有 1% 不确定碱基（N 碱基）的 read
剔除含有测序接头序列的 read
剔除含有 50% 以上的低质量碱基（Q ≤ 20 的碱基）的 read
对于宿主环境来源的样品，为了降低宿主序列对后续分析的干扰，需要使用 Bowtie2 软件比对宿主序列，然后过滤掉比对上宿主基因组的序列（若样本来源为人、小鼠或大鼠，会根据来源直接过滤，否则需要提供宿主序列）

软件	版本	默认命令
SOAPnukeopen in new window ^[1]	2.3	SOAPnuke filter -l 20 -q 0.5 -n 0.01 -d -Q 2 -5 0 --adaMis 0.3
Bowtie2open in new window ^[2]	2.4.4	使用软件默认参数

常见问题

无

参考文献

Chen, Y., Chen, Y., Shi, C., Huang, Z., Zhang, Y., Li, S., Li, Y., Ye, J., Yu, C., Li, Z., Zhang, X., Wang, J., Yang, H., Fang, L., & Chen, Q. (2018). SOAPnuke: A MapReduce Acceleration-Supported Software for Integrated Quality Control and Preprocessing of High-Throughput Sequencing Data. GigaScience, 7(1). https://doi.org/10.1093/gigascience/gix120open in new window ↩︎
Langmead, B., & Salzberg, S. L. (2012). Fast Gapped-Read Alignment with Bowtie 2. Nature Methods, 9(4), 357–359. https://doi.org/10.1038/nmeth.1923open in new window ↩︎

质控和过滤

数据过滤 #

常见问题 #

参考文献 #

数据过滤

常见问题

参考文献