写作参考

Dr.Tom约 1981 字大约 7 分钟

我们将您写文章时可能会用到的相关方法材料总结到一起,作为您发表论文时候的参考。

小贴士

以下内容是概述性的,详细描述在分析帮助open in new window 的对应的章节中可以查看。

样本提取

实验流程

  1. 样品检测
    根据样品及产品要求选择相应的检测方法进行质检。
  2. 样品打断
    取一定量的基因组 DNA,进行片段化处理。
  3. 片段大小选择
    打断后的样品进行磁珠片段选择。
  4. 末端修复、加“A”、接头连接
    配制反应体系,并设置反应程序,进行修复 DNA 末端,并在 3’ 末端加上 A 碱基;配制接头连接反应体系,并设置反应程序,使接头与 DNA 连接。
  5. PCR
    配制 PCR 反应体系,并设置反应程序,对产物进行扩增。
  6. 文库检测
    根据产品要求选择相应的检测方法对文库进行质检。
  7. 环化
    将PCR 产物变性为单链后,配制环化反应体系,并设置反应程序,得到单链环形产物,消化掉未被环化的线性 DNA 分子。
  8. 上机测序
    单链环状 DNA 分子通过滚环复制,形成一个包含多个拷贝的DNA纳米球(DNB)。将得到的 DNBs 采用高密度 DNA 纳米芯片技术,加到芯片上的网状小孔内,通过联合探针锚定聚合技术(cPAS)进行测序。

建库测序

  1. 样品打断。取一定量的宏基因组 DNA ,用 Covaris 超声波破碎仪将其打断。
  2. 片段大小选择。打断后的样品磁珠进行片段选择,使得样品条带集中在 200-400bp 左右。
  3. 末端修复、加 “A”、接头连接。配制反应体系,适温反应一定时间,修复双链 cDNA 末端,并在 3’ 末端加上 A 碱基,配制接头连接反应体系,适温反应一定时间,使接头与 DNA 连接。
  4. PCR 反应及产物回收。配制 PCR 反应体系,并设置反应程序,对连接产物进行扩增。扩增产物用磁珠进行产物纯化回收。
  5. 产物环化。将 PCR 产物变性为单链后,配制环化反应体系,充分混匀适温反应一定时间,得到单链环形产物,消化掉未被环化的线性 DNA 分子后,即得到最终的文库。
  6. 文库检测。环化产物进行上机前浓度检测。

数据分析

数据过滤

对原始的测序数据进行如下处理,获得 Clean Data,具体步骤如下:

  1. 剔除含有10%不确定碱基(N碱基)的 Reads;
  2. 剔除含有测序接头序列的 Reads(有 15 个碱基或更长的区域比对到接头序列);
  3. 剔除含有50%以上的低质量碱基( Q<20 的碱基)的 Reads;
  4. 对于宿主环境来源的样品,为了降低宿主序列对后续分析的干扰,此处增加一步过滤环节,去除比对上宿主基因组的序列。 使用软件及其版本: 数据过滤:SOAPnuke(v1.5.0) [1] 数据比对:Bowtie2 (2.2.5) [2] 数据处理:Samtools(1.2)

宏基因组组装

对通过质控的 Clean Data,使用组装软件 MEGAHIT[3] 对样品进行 de novo 组装。过滤掉长度小于 200bp 的组装序列。

基因预测及丰度信息

首先采用 MetaGeneMark [4] 进行宏基因组基因的从头预测,然后利用 CD-HIT [5] 软件对各样品的基因预测结果进行去冗余处理。根据序列相似性(设定 identity 阈值为 95%,coverage 阈值为 90%)将其归为其中的一类或成为新的一个聚类的代表序列,如此遍历所有序列完成聚类过程。最后,采用 Salmon [6] 软件进行定量,获得的TPM值即为标准化后的基因丰度值。TPM 定量公式如下图所示:

基因功能预测

对非冗余基因一般使用软件 Diamond [7] 的 BLASTP 功能进行功能注释。包括 BacMet、CARD、KEGG、eggNOG、COG、Swiss-Prot 和 CAZy 等。 BacMet [8],Antibacterial Biocide and Metal Resistance Genes Database;version:20180311 CARD [9],The Comprehensive Antibiotic Resistance Database;version:3.0.9 KEGG [10],Kyoto Encyclopedia of Genes and Genomes;version:101 eggnog [11],evolutionary genealogy of genes: Non-supervised Orthologous Groups;version:5.0 COG [12],Clusters of Orthologous Groups;version:20201125 Swiss-Prot [13];version:release-2021_04 CAZy [14],Carbohydrate-Active enZYmes Database;version:20240326

物种注释及物种丰度计算

使用 Kraken2 的默认参数进行物种注释,同时通过 Bracken 使用贝叶斯算法和 Kraken 分类结果来估计宏基因组样本的物种水平丰度。在数据库选择时,当样本为人肠道样本时,将采用人类胃肠道基因组 UHGG [15] 数据库;而其他样本则采用 Nt (202011) 数据库。

物种多样性分析

利用R包计算物种的 Alpha 多样性( Alpha diversity ),包括 chao1 指数、shannon 指数和 simpson 指数。同时通过计算 Bray-Curtis 距离(Bray-curtis distance)[16] 和 JSD 距离(Jensen-Shannon divergence)[17] 来衡量样本或组间差异,即 Beta 多样性(Beta diversity )[18],反映样本(组)间是否具有显著的微生物群落差异。

参考文献

[1] Chen Y, Chen Y, Shi C, Huang Z, Zhang Y, Li S, Li Y, Ye J, Yu C, Li Z, Zhang X, Wang J, Yang H, Fang L, Chen Q. SOAPnuke: a MapReduce acceleration-supported software for integrated quality control and preprocessing of high-throughput sequencing data[J]. Gigascience. 2018 Jan 1;7(1):1-6. doi: 10.1093/gigascience/gix120. PMID: 29220494; PMCID: PMC5788068.
[2] Ben Langmead, Steven L Salzberg. Fast gapped-read alignment with Bowtie 2[J]. Nat Methods. 2012 Mar 4;9(4):357-9. doi: 10.1038/nmeth.1923.
[3] Dinghua Li, Chi-Man Liu, Ruibang Luo, Kunihiko Sadakane, Tak-Wah Lam. MEGAHIT: an ultra-fast single-node solutionfor large and complex metagenomics assembly via succinct de Bruijn graph[J]. Bioinformatics. 2015 May 15;31(10):1674-6. doi: 10.1093/bioinformatics/btv033. Epub 2015 Jan 20.
[4] Wenhan Zhu, Alexandre Lomsadze, Mark Borodovsky. Ab initio gene identification in metagenomic sequences[J]. Nucleic Acids Res. 2010 Jul;38(12):e132. doi: 10.1093/nar/gkq275. Epub 2010 Apr 19.
[5] Limin Fu, Beifang Niu, Zhengwei Zhu, Sitao Wu, Weizhong Li. CD-HIT: accelerated for clustering the next-generation sequencing data[J]. Bioinformatics. 2012 Dec 1;28(23):3150-2. doi: 10.1093/bioinformatics/bts565. Epub 2012 Oct 11.
[6] Rob Patro, Geet Duggal, Michael I Love, Rafael A Irizarry, Carl Kingsford. Salmon provides fast and bias-aware quantification of transcript expression[J]. Nat Methods. 2017 Apr;14(4):417-419. doi: 10.1038/nmeth.4197. Epub 2017 Mar 6.
[7] Benjamin Buchfink, Chao Xie, Daniel H Huson. Fast and sensitive protein alignment using DIAMOND[J]. Nature Methods. 2015 Jan;12(1):59-60. doi: 10.1038/nmeth.3176.
[8] Chandan Pal, Johan Bengtsson-Palme, Christopher Rensing, Erik Kristiansson, D G Joakim Larsson. BacMet: antibacterial biocide and metal resistance genes database[J]. Nucleic Acids Res. 2014 Jan;42(Database issue):D737-43. doi: 10.1093/nar/gkt1252. Epub 2013 Dec 3.
[9] Baofeng Jia, Amogelang R Raphenya, Brian Alcock, Nicholas Waglechner, Peiyao Guo, Kara K Tsang, Briony A Lago, Biren M Dave, Sheldon Pereira, Arjun N Sharma, Sachin Doshi, Mélanie Courtot, Raymond Lo, Laura E Williams, Jonathan G Frye, Tariq Elsayegh, Daim Sardar, Erin L Westman, Andrew C Pawlowski, Timothy A Johnson, Fiona S L Brinkman, Gerard D Wright, Andrew G McArthur. CARD 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database[J]. Nucleic Acids Res. 2017 Jan 4;45(D1):D566-D573. doi: 10.1093/nar/gkw1004. Epub 2016 Oct 26.
[10] M Kanehisa, S Goto. KEGG: Kyoto encyclopedia of genes and genomes[J]. Nucleic Acids Res. 2000 Jan 1;28(1):27-30. doi: 10.1093/nar/28.1.27.
[11] Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork. eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses[J]. Nucleic Acids Res. 2019 Jan 8;47(D1):D309-D314. doi: 10.1093/nar/gky1085.
[12] Michael Y Galperin, Kira S Makarova, Yuri I Wolf, Eugene V Koonin. Expanded microbial genome coverage and improved protein family annotation in the COG database[J]. Nucleic Acids Res. 2015 Jan;43(Database issue):D261-9. doi: 10.1093/nar/gku1223. Epub 2014 Nov 26.
[13] Sylvain Poux, Cecilia N Arighi, Michele Magrane, Alex Bateman, Chih-Hsuan Wei, Zhiyong Lu, Emmanuel Boutet, Hema Bye-A-Jee, Maria Livia Famiglietti, Bernd Roechert, The UniProt Consortium. On expert curation and scalability: UniProtKB/Swiss-Prot as a case study[J]. Bioinformatics. 2017 Nov 1;33(21):3454-3460. doi: 10.1093/bioinformatics/btx439.
[14] Vincent Lombard, Hemalatha Golaconda Ramulu, Elodie Drula, Pedro M Coutinho, Bernard Henrissat. The carbohydrate-active enzymes database (CAZy) in 2013[J]. Nucleic Acids Res. 2014 Jan;42(Database issue):D490-5. doi: 10.1093/nar/gkt1178. Epub 2013 Nov 21.
[15] Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S Pollard, Ekaterina Sakharova, Donovan H Parks, Philip Hugenholtz, Nicola Segata, Nikos C Kyrpides, Robert D Finn. A unified catalog of 204,938 reference genomes from the human gut microbiome[J]. Nat Biotechnol. 2021 Jan;39(1):105-114. doi: 10.1038/s41587-020-0603-3. Epub 2020 Jul 20.
[16] Bray JR, Curtis JT . (1957). An ordination of the upland forest communities of southern Wisconsin. Ecol Monogr 27: 325–349.
[17] Majtey A P, Lamberti P W, Prato D P. Jensen-Shannon divergence as a measure of distinguishability between mixed quantum states[J]. Physical Review A, 2005, 72(5): 052310.
[18] Vegetation of the Siskiyou Mountains, Oregon and California Robert H. Whittaker Ecological Monographs[J]. 1960 Jul 1;30: 279-338. doi:10.2307/1943563.