功能注释

Dr.Tom约 22 字小于 1 分钟

简介

功能注释

宏基因组的功能注释是将预测到的非冗余基因注释到相关功能数据库并统计其丰度的过程。

对非冗余基因一般使用软件 Diamond [1] 的 blastp 功能进行功能注释。这是因为比对的数据库大,待比对的基因多,使用传统的 BLAST 会消耗巨大的计算资源和时间,而使用 Diamond 则能快 500-20000 倍,且获得和 BLAST 比较一致的结果,特别是对于大批量的序列进行 NR 注释或规模较大的蛋白数据库的比对,使用 Diamond 是优先选择的方式。

常用的功能数据库:

  • KEGG [2],Kyoto Encyclopedia of Genes and Genomes;version:v101。KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因和基因组百科全书,是研究 Pathway 代谢通路的最主要数据库,整合了基因组信息、化学信息、系统信息及疾病和健康信息。

  • COG [3] ,Clusters of Orthologous Groups;version:20201125。COG(蛋白质直系同源簇)数据库是 NCBI 开发的用于同源蛋白注释的数据库,是将细菌、藻类和真核生物的 21 个完整基因组的编码蛋白,根据系统进化关系分类构建而成。

  • eggNOG [4],evolutionary genealogy of genes: Non-supervised Orthologous Groups;version:5.0。EggNOG数据库是直源同系蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由 EMBL 创建并维护,是对 NCBI 的 COG 数据库进行拓展,提供了不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核物种、原核物种及病毒的数据信息。

    提示

    eggNOG 在系统中显示为 NOG

  • Swiss-Prot [5] ,version:release-2021_04。该数据库包含高质量、手工注释、非冗余数据集。它包含了成千上万的蛋白质描述,包括功能、结构域、亚细胞定位、翻译后修饰和功能特征变异。其数据主要来自已发表的文献和 E-value 校验过的分析结果。

  • BacMet [6] ,Antibacterial Biocide and Metal Resistance Genes Database;version:20180311。该数据库是常用的抗性数据库之一,关注杀菌剂和金属抗性基因,包括了手工管理高质量的实验验证数据和通过公共数据库搜索预测的数据。

  • CARD [7],The Comprehensive Antibiotic Resistance Database;version:3.0.9。CARD 数据库是另外一个常用的抗性数据库,关注抗生素抗性。CARD 数据库收集了超过1600个已知的抗生素抗性基因。注:该数据库注释使用 The Resistance Gene Identifier (RGI) 软件。

  • CAZy [8] ,Carbohydrate-Active enZYmes Database;version:20240326。碳水化合物活性酶数据库包括了能够合成分解复杂碳水化合物和糖的酶基因数据。他提供了合成、代谢、转运碳水化合物的酶分子序列的家族信息。

软件版本默认命令
Diamondopen in new window [1:1]0.8.24diamond --evalue 1e-5 --threads 5 --outfmt 6 --seg no --max-target-seqs 20 --more-sensitive -b 0.5 --salltitles
RGIopen in new window5.2.1使用软件默认参数,此软件只用于注释 CARD 数据库

功能丰度构建

从功能注释结果及基因丰度表出发,各功能层级的相对丰度等于注释为该功能层级的基因的相对丰度之和。其中 KEGG 数据库有 5 个层级,CAZy 数据库有 3 个层级。

相关信息

功能丰度表,随 Clean Data 一起交付。路径为

  • FunctionAnalysis/Abundance/{注释数据库}.{注释水平,如果有}.normalized.xls:功能在各样本中的 TPM 丰度统计表
  • FunctionAnalysis/Abundance/{注释数据库}.{注释水平,如果有}.rawCounts.xls:功能在各样本中的原始丰度统计表
  • FunctionAnalysis/Abundance/{注释数据库}.filter.xls:基因功能注释表

常见问题

Q:功能数据库的选择依据是什么?

A:Dr.Tom 系统提供了 KEGG、COG、eggNOG、Swiss-Prot、BacMet、CARD 和 CAZy 这 7 个常用数据库的功能注释结果,不同的数据库对于针对特定数据做了适当的优化,如 BacMet 关注杀菌剂和金属抗性基因,CARD关注抗生素抗性,您可以根据注释目的选择适当的物种注释结果。

Q:功能注释丰度表在哪里下载?

A:功能丰度表与 Clean Data 一起,线下交付。

Q:物种注释数据库版本?

A:不同功能数据库和数据的版本如下:

数据库版本
KEGGv101.0
COG20201125
eggNOGeggnog_5.0
Swissprotrelease-2021_04
BacMet220180311
Cardv3.0.9
Cazy20240326
Q:数据库对菌群功能的注释是在属水平上进行的么?从发文章角度来说,我们只能自己选择其中一种数据库的结果来解释是么?

A:不是。功能注释不依赖于任何物种注释结果,功能注释依据序列的信息,这个你可以比对到多种库去进行分析,不一定只要一个库

Q:KEGG 注释结果中 map 和 pathway level3 是一一对应的,但丰度值却不一样?

A:map 和 pathway level3 采用了不同的统计算法:计算 map 时,若一个 KO 被注释到多个 map 则 KO 会被平均分配到各个 map 中;计算 pathway level3 时,直接累加 KO 丰度值。

参考文献


  1. Buchfink, B., Xie, C., & Huson, D. H. (2015). Fast and Sensitive Protein Alignment Using DIAMOND. Nature Methods, 12(1), 59–60. https://doi.org/10.1038/nmeth.3176open in new window ↩︎ ↩︎

  2. Kanehisa, M. (2000). KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1), 27–30. https://doi.org/10.1093/nar/28.1.27open in new window ↩︎

  3. Galperin, M. Y., Makarova, K. S., Wolf, Y. I., & Koonin, E. V. (2015). Expanded Microbial Genome Coverage and Improved Protein Family Annotation in the COG Database. Nucleic Acids Research, 43(D1), D261–D269. https://doi.org/10.1093/nar/gku1223open in new window ↩︎

  4. Huerta-Cepas, J. et al. eggNOG 5.0: A Hierarchical, Functionally and Phylogenetically Annotated Orthology Resource Based on 5090 Organisms and 2502 Viruses. Nucleic Acids Research 47, D309–D314 (2019). https://doi.org/10.1093/nar/gky1085open in new window ↩︎

  5. Poux, S., Arighi, C. N., Magrane, M., Bateman, A., Wei, C.-H., Lu, Z., Boutet, E., Bye-A-Jee, H., Famiglietti, M. L., Roechert, B., & UniProt Consortium, T. (2017). On Expert Curation and Scalability: UniProtKB/Swiss-Prot as a Case Study. Bioinformatics, 33(21), 3454–3460. https://doi.org/10.1093/bioinformatics/btx439open in new window ↩︎

  6. Pal, C., Bengtsson-Palme, J., Rensing, C., Kristiansson, E., & Larsson, D. G. J. (2014). BacMet: Antibacterial Biocide and Metal Resistance Genes Database. Nucleic Acids Research, 42(D1), D737–D743. https://doi.org/10.1093/nar/gkt1252open in new window ↩︎

  7. Jia, B., Raphenya, A. R., Alcock, B., Waglechner, N., Guo, P., Tsang, K. K., Lago, B. A., Dave, B. M., Pereira, S., Sharma, A. N., Doshi, S., Courtot, M., Lo, R., Williams, L. E., Frye, J. G., Elsayegh, T., Sardar, D., Westman, E. L., Pawlowski, A. C., … McArthur, A. G. (2017). CARD 2017: Expansion and Model-Centric Curation of the Comprehensive Antibiotic Resistance Database. Nucleic Acids Research, 45(D1), D566–D573. https://doi.org/10.1093/nar/gkw1004open in new window ↩︎

  8. Lombard, V., Golaconda Ramulu, H., Drula, E., Coutinho, P. M., & Henrissat, B. (2014). The Carbohydrate-Active Enzymes Database (CAZy) in 2013. Nucleic Acids Research, 42(D1), D490–D495. https://doi.org/10.1093/nar/gkt1178open in new window ↩︎