质控和过滤

Dr.Tom约 21 字小于 1 分钟

数据过滤

DNBSEQ 平台在测序建库过程中需要在 DNA 片段中添加 barcode 序列区分不同的文库,因此原始下机数据通常包含了 barcode 信息,这些信息并不是目的信息,需要去除。另外原始数据中还有可能包含低质量碱基、不确定碱基及长度过短序列,如果这些序列进入后续分析将会到影响到结果的可靠性。因此,在分析之前需要先使用 SOAPnuke 对原始测序数据进行质控过滤,从而得到高质量的质控数据(Clean data)以保证后续分析结果的准确性。SOAPnuke 对原始数据过滤的具体步骤如下:

  1. 剔除含有 0.1% 不确定碱基(N 碱基)的 read
  2. 剔除含有测序接头序列的 read
  3. 剔除含有 50% 以上的低质量碱基(Q < 20 的碱基)的 read
  4. 对于宿主环境来源的样品,为了降低宿主序列对后续分析的干扰,需要使用 Bowtie2 软件比对宿主序列,然后过滤掉比对上宿主基因组的序列(若样本来源为人、小鼠或大鼠,会根据来源直接过滤,否则需要提供宿主序列)
软件版本默认命令
SOAPnukeopen in new window [1]2.2.1SOAPnuke filter -l 20 -q 0.5 -n 0.001 -d -Q 2 -5 0 --adaMis 0.3
Bowtie2open in new window [2]2.4.4使用软件默认参数

常见问题

参考文献


  1. Chen, Y., Chen, Y., Shi, C., Huang, Z., Zhang, Y., Li, S., Li, Y., Ye, J., Yu, C., Li, Z., Zhang, X., Wang, J., Yang, H., Fang, L., & Chen, Q. (2018). SOAPnuke: A MapReduce Acceleration-Supported Software for Integrated Quality Control and Preprocessing of High-Throughput Sequencing Data. GigaScience, 7(1). https://doi.org/10.1093/gigascience/gix120open in new window ↩︎

  2. Langmead, B., & Salzberg, S. L. (2012). Fast Gapped-Read Alignment with Bowtie 2. Nature Methods, 9(4), 357–359. https://doi.org/10.1038/nmeth.1923open in new window ↩︎