噬菌体(phage)是侵袭细菌的病毒,也是赋予宿主菌生物学性状的遗传物质。噬菌体必须在活菌内寄生,有严格的宿主特异性,其取决于噬菌体吸附器官和受体菌表面受体的分子结构和互补性。噬菌体测序过程中会有宿主菌污染,因此组装前需要去除宿主菌序列。

阅读全文 »

Snakemake 是基于 Python 的一款工具,所以它也继承了 Python 语言简单易读、逻辑清晰、便于维护的特点,同时它还支持 Python 语法,非常适合新手用户。例如遵循python中缩进表示层级;以及索引从0开始,{input[0]}表示input里的第1个元素;列表用中括号类似[‘A’,’B’,’C’]等。snakemake 的基本组成单位叫“规则”,即 rule;每个 rule 里面又有多个元素(input、output、shell等)。它的执行逻辑就是将各个 rule 利用 input/output 连接起来,形成一个完整的工作流。

阅读全文 »

一.数据的获取

GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。包含了芯片和二代测序的数据。刚接触GEO肯定会发现GPL,GSM,GSE,GDS等甚至还有SRA这些标志。

阅读全文 »

一.DESeq2筛选差异表达基因

a.使用DESeq2的两点要求:

  1. DEseq2要求输入数据是由整数组成的矩阵。
  2. DESeq2要求矩阵是没有标准化的。

b.DESeq2进行差异表达分析

DESeq2包分析差异表达基因简单来说只有三步:构建dds矩阵,标准化,以及进行差异分析。

阅读全文 »

ucsc下载基因组及GTF注释文件是较为简单且常用的,推荐使用ucsc下载。

一.参考基因组下载

1.有三大网站可以提供基因组下载,它们分别是:

1).NCBI (https://www.ncbi.nlm.nih.gov/grc

2).UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)

3).Ensemble (http://asia.ensembl.org/index.html?redirect=no

阅读全文 »

三代测序是指单分子测序技术(Single Molecule Real- Time, SMRT),在测序过程中不需要涉及PCR扩增,不仅实现了每一条DNA分子的单独测序,并且避免了潜在的PCR扩增错误和偏好性。
目前,三代测序技术原理分为单分子荧光测序和纳米孔测序两大阵营,其代表公司分别为Pacific Bioscience和Oxford Nanopore Technologies。现在市场接受度和使用度最高的是Pacific Bioscience三代测序仪,其SMRT技术建立在两项革命性的发明基础之上,从而克服了测序领域的重大挑战。

阅读全文 »