ucsc下载基因组及GTF注释文件是较为简单且常用的,推荐使用ucsc下载。
一.参考基因组下载
1.有三大网站可以提供基因组下载,它们分别是:
1).NCBI (https://www.ncbi.nlm.nih.gov/grc)
2).UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)
3).Ensemble (http://asia.ensembl.org/index.html?redirect=no)
2.UCSC下载人类hg19参考基因组
2.1 chromFa.tar.gz
chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.
每个染色体一个文件中的装配顺序。RepeatMasker和Tandem Repeats Finder的重复(周期为12或更短)以小写形式显示; 大写显示非重复序列。
2.2 UCSC参考基因组下载链接
hg19:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
hg38:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
human的genome从UCSC上下载很方便,一般只用考虑拼装好的染色体上的内容即可,其他的scafold可以不考虑即 chr1~22 and chrX,Y,M, chrM是线粒体DNA
将hg19链接复制到迅雷下载并上传到服务器
1 | tar -zvfx chromFa.tar.gz#hg19的解压生成不同染色体的文件 |
3.Ensemble 下载人类hg19参考基因组
网址:http://asia.ensembl.org/index.html
hg19基因组下载地址:ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/
绿色箭头是所有的拼装信息,包含很多冗余成分;红色箭头是精简信息,不要下载toplevel,这里用Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
4.genecode下载基因组
1 | # Download genome fasta file into the genome/ folder |
二.注释下载
不同网站的GTF染色体编号不一样,有的是纯数字1,2,3…,有的是chr1,chr2,chr3…..。下载时应注意基因组与染色体是否一致。
GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注,而GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息
1.UCSC下载人类hg19GTF
hg19:网址:http://genome.ucsc.edu/cgi-bin/hgTables
hg38:只需把上图红色箭头标记对应的版本改为hg38即可
2.Ensemble 下载人类hg19基因组GTF
下载地址:ftp://ftp.ensembl.org/pub/grch37/current/gtf/homo_sapiens/
Homo_sapiens.GRCh37.87.abinitio.gtf.gz 机器重头注释
我们一般下载的是Homo_sapiens.GRCh37.87.gtf.gz
3.genecode下载hg19基因组GTF(推荐)
网址:https://www.gencodegenes.org/human/release_29.html`
引用
1.RNA-seq练习 第二部分(基因组序列下载,注释文件下载,索引下载,比对,比对质控,HTseq-count计数,输出count矩阵文件)