数据来源

Dr.Tom约 660 字大约 2 分钟

参考基因来源

mRNA:来源于参考基因组注释信息。

LncRNA:来源于参考基因组注释信息及 RNAcentral 数据库。

其中,RNAcentral 只提供规范的 RNA ID,没有提供基因 ID,没有提供规范的位置信息。其位置信息是通过使用 blat 将序列比对到基因组确定的。其基因 ID 的确定有两个步骤,首先与来自 NCBI 的已知 RNA 进行位置比较,若与已知 RNA 存在重叠区域,则使用该区域对应的基因 ID。若与已知 RNA 不存在重叠区域,则按照新基因的 ID 命名规则进行命名(BGIGxxxxxx)。

miRNA:来源于 miRbase 22 数据库及 BGI 过往测序数据预测得到的 miRNA。 对于预测的 miRNA,动物采用 mirdeep2 预测,植物采用 miRDeep-P2 预测,均为默认参数。

miRNA靶基因预测:采用多个软件进行预测,结合相应的过滤条件如自由能、得分值等进行过滤。一般来说,我们用RNAhybrid, miRanda和TargetScan来预测动物的靶基因,用Tapir和TargetFinder预测植物的靶基因。靶基因预测软件的默认参数如下:

  • miRanda: -en -20 -strict
  • RNAhybrid: -b 100 -c -f 2,8 -m 100000 -v 3 -u 3 -e -20 -p 1 -s 3utr_human
  • TargetScan: Default
  • Tapir: --score 5 --mfe_ratio 0.6
  • TargetFinder: -c 4

circRNA: 来自 circBase,使用 blast 将序列对齐到基因组来确定位置信息。

数据库注释信息来源

KEGG 注释:KEGG 101.0

GO 注释:来源于 3 个数据库:

TF(转录因子)注释

MsigDB注释:仅提供人的 MsigDB 相关注释信息,版本为MsigDB v7.1。 Msigdb:http://software.broadinstitute.org/gsea/msigdb/open in new window

Genebank注释::根据 ID 从 NCBI 中提取。 Interpro,pfam,EggNOG注释:与 GO 类似,是通过 GO 官方推荐的 idmapping 信息进行提取。 idmapping 信息下载时间是 2020.05 ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gzopen in new window

Reactome注释:Reactome 是通过官方提供的 NCBI2Reactome_PE_All_Levels.txt 的映射关系进行提取。 数据下载时间是 2020.06 https://reactome.org/download-dataopen in new window

CR2Cancer,CellMarker 注释:根据 ID 从相应数据库中提取得到的。CR2Cancer 只有人的注释信息,CellMarker 则只有人和小鼠的注释信息。