数据来源
参考基因来源
mRNA:来源于参考基因组注释信息。
LncRNA:来源于参考基因组注释信息及 RNAcentral 数据库。
其中,RNAcentral 只提供规范的 RNA ID,没有提供基因 ID,没有提供规范的位置信息。其位置信息是通过使用 blat 将序列比对到基因组确定的。其基因 ID 的确定有两个步骤,首先与来自 NCBI 的已知 RNA 进行位置比较,若与已知 RNA 存在重叠区域,则使用该区域对应的基因 ID。若与已知 RNA 不存在重叠区域,则按照新基因的 ID 命名规则进行命名(BGIGxxxxxx)。
miRNA:来源于 miRbase 22 数据库及 BGI 过往测序数据预测得到的 miRNA。 对于预测的 miRNA,动物采用 mirdeep2 预测,植物采用 miRDeep-P2 预测,均为默认参数。
miRNA靶基因预测:采用多个软件进行预测,结合相应的过滤条件如自由能、得分值等进行过滤。一般来说,我们用RNAhybrid, miRanda和TargetScan来预测动物的靶基因,用Tapir和TargetFinder预测植物的靶基因。靶基因预测软件的默认参数如下:
- miRanda: -en -20 -strict
- RNAhybrid: -b 100 -c -f 2,8 -m 100000 -v 3 -u 3 -e -20 -p 1 -s 3utr_human
- TargetScan: Default
- Tapir: --score 5 --mfe_ratio 0.6
- TargetFinder: -c 4
circRNA: 来自 circBase,使用 blast 将序列对齐到基因组来确定位置信息。
数据库注释信息来源
KEGG 注释:KEGG 101.0
GO 注释:来源于 3 个数据库:
- Uniprot 蛋白的 GO 注释信息
http://ftp.ebi.ac.uk/pub/databases/GO/goa/UNIPROT/goa_uniprot_all.gaf.gz - NCBI 的 gene2GO
ftp://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz - GO 官方推荐的 idmapping 信息 ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz 数据库下载时间是 2020.05
TF(转录因子)注释:
- 植物的已知转录因子信息来自 PlantTFDB v5.0
PlantTFDB:http://planttfdb.gao-lab.org/ - 动物的已知转录因子来自 AnimalTFDB v3.0。动物除了 TF 信息外,还有 TF Cofactors 信息,同样来自 AnimalTFDB v3.0
AnimalTFDB:http://bioinfo.life.hust.edu.cn/AnimalTFDB/#!/
MsigDB注释:仅提供人的 MsigDB 相关注释信息,版本为MsigDB v7.1。 Msigdb:http://software.broadinstitute.org/gsea/msigdb/
Genebank注释::根据 ID 从 NCBI 中提取。 Interpro,pfam,EggNOG注释:与 GO 类似,是通过 GO 官方推荐的 idmapping 信息进行提取。 idmapping 信息下载时间是 2020.05 ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
Reactome注释:Reactome 是通过官方提供的 NCBI2Reactome_PE_All_Levels.txt 的映射关系进行提取。 数据下载时间是 2020.06 https://reactome.org/download-data
CR2Cancer,CellMarker 注释:根据 ID 从相应数据库中提取得到的。CR2Cancer 只有人的注释信息,CellMarker 则只有人和小鼠的注释信息。
- CR2Cancer:http://cis.hku.hk/CR2Cancer/
- CellMarker:http://biocc.hrbmu.edu.cn/CellMarker/