RNA-seq第二部分(基因组序列下载,注释文件下载)

ucsc下载基因组及GTF注释文件是较为简单且常用的,推荐使用ucsc下载。

一.参考基因组下载

1.有三大网站可以提供基因组下载,它们分别是:

1).NCBI (https://www.ncbi.nlm.nih.gov/grc

2).UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)

3).Ensemble (http://asia.ensembl.org/index.html?redirect=no

2.UCSC下载人类hg19参考基因组

2.1 chromFa.tar.gz

chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.
每个染色体一个文件中的装配顺序。RepeatMasker和Tandem Repeats Finder的重复(周期为12或更短)以小写形式显示; 大写显示非重复序列。

2.2 UCSC参考基因组下载链接

hg19:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
hg38:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz

human的genome从UCSC上下载很方便,一般只用考虑拼装好的染色体上的内容即可,其他的scafold可以不考虑即 chr1~22 and chrX,Y,M, chrM是线粒体DNA

将hg19链接复制到迅雷下载并上传到服务器

1
2
3
tar -zvfx chromFa.tar.gz#hg19的解压生成不同染色体的文件
cat *.fa > hg19.fa #对解压后的.fa文件进行合并,把所有染色体信息整合到一个文件
rm -rf chr* #删除单独的染色体文件

3.Ensemble 下载人类hg19参考基因组

网址:http://asia.ensembl.org/index.html

hg19基因组下载地址:ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/

绿色箭头是所有的拼装信息,包含很多冗余成分;红色箭头是精简信息,不要下载toplevel,这里用Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz

4.genecode下载基因组

1
2
# Download genome fasta file into the genome/ folder
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_mouse/release_M12/GRCm38.p5.genome.fa.gz

二.注释下载

不同网站的GTF染色体编号不一样,有的是纯数字1,2,3…,有的是chr1,chr2,chr3…..。下载时应注意基因组与染色体是否一致。

GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注,而GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息

1.UCSC下载人类hg19GTF

hg19:网址:http://genome.ucsc.edu/cgi-bin/hgTables

hg38:只需把上图红色箭头标记对应的版本改为hg38即可

2.Ensemble 下载人类hg19基因组GTF

下载地址:ftp://ftp.ensembl.org/pub/grch37/current/gtf/homo_sapiens/

Homo_sapiens.GRCh37.87.abinitio.gtf.gz 机器重头注释

我们一般下载的是Homo_sapiens.GRCh37.87.gtf.gz

3.genecode下载hg19基因组GTF(推荐)

网址:https://www.gencodegenes.org/human/release_29.html`

引用

1.RNA-seq练习 第二部分(基因组序列下载,注释文件下载,索引下载,比对,比对质控,HTseq-count计数,输出count矩阵文件)

2.RNAseq004 转录组入门(4):参考基因组下载

客官打个赏咯.