• CLC  表观基因组学 Chip-seq 数据分析

CLC 表观基因组学 Chip-seq 数据分析

CLC Genomics Wrkbench 还可以实现表观基因组学测序数据的分析,比如ChIP sequencing、Bisulfite sequencing、Histone Chip-seq等。今天以ChIP Sequencing为例,给大家介绍一下如何借助CLC GWB实现表观基因组学测序数据分析。ChIP-Sequencing用于分析蛋白和基因组DNA的互作位点。交联后获得蛋白和DNA的复合

CLC Genomics Wrkbench 还可以实现表观基因组学测序数据的分析,比如ChIP sequencingBisulfite sequencingHistone Chip-seq等。今天以ChIP Sequencing为例,给大家介绍一下如何借助CLC GWB实现表观基因组学测序数据分析。

ChIP-Sequencing用于分析蛋白和基因组DNA的互作位点。交联后获得蛋白和DNA的复合物,ChIP-Seq使用免疫共沉淀(Chip-seq)方法来纯化得到相关的DNA片段。然后进行测序,并将测序reads map到参考基因组上,从而鉴定出互作蛋白在DNA上的结合位点。只要有特异的抗体,就可以精确定位出任意感兴趣蛋白在DNA上的结合位点。通过生物信息学手段提取得到结合位点区域,并使用pattern discovery找出任意DNA结合位点上的保守基序。通常需要设立一个不进行免疫共沉淀步骤的对照组实验。对照组的实验数据用于矫正测序偏差,比如基因组上的易接近区、重复区域或者拷贝数畸变区。

分析流程:导入原始测序数据、将测序Reads map到参考基因组序列上、Calling peaks、查看结果、提取峰区的DNA序列。

测序数据:来自人类Gm12878细胞系的NRSF(神经元限制性沉默因子)转录因子的ChIP-Seq数据。NRSF也叫做RESTRE1-Silencing转录因子),参与了非神经元细胞中神经相关基因的抑制,比如类原始淋巴细胞系Gm12878。所以,我们希望NRSF ChIP-Seq峰对应的基因为参与神经活动的基因。同时,使用一个没有做免疫共沉淀步骤的对照组实验。

完整数据的下载地址:1. NRSF数据下载

http://hgdownload-test.cse.ucsc.edu/goldenPath/hg18/encodeDCC/wgEncodeHudsonalphaChipSeq/release1/wgEncodeHudsonalphaChipSeqRawDataRep1K562Nrsf.fastq.gz

2. 对照组数据下载

http://hgdownload-test.cse.ucsc.edu/goldenPath/hg18/encodeDCC/wgEncodeHudsonalphaChipSeq/release1/wgEncodeHudsonalphaChipSeqRawDataRep1K562Control

本教程,仅使用部分测序数据作为演示。演示数据下载地址:http://download.clcbio.com/testdata/raw_data/ChIP-seq_NRSF_chr21.zip

1. 数据导入

1.1 导入测序数据

File | Import | Illumina...

1496052130599518.jpg

选择nrsf-chr21.fastq control-chr21.fastq文件,不要勾选Paired reads,参数如图所示,点击Next,保存,完成。

1.2 导入参考基因组序列

File | Import| Standard Import | Locate "NC_000021.gbk" | Select

参考基因组序列NC_000021.gbkgenbank格式)也可在下载的文件中找到。本教程仅使用人21号染色体序列作为参考序列。

可通过Standard Import方法导入,也可以直接拖拽到CLC的文件导航区域。

导入后的参考序列需要提取出序列信息和注释信息,方法:Toolbox | Track Tools | Convert to Tracks,选择NC_000021文件,点击Next,如图所示,保存,完成。

1496052161135373.jpg

最终导入的全部文件如图所示:

1496052177998982.jpg

2. 将测序Reads map到参考基因组序列上

Toolbox | NGS Core Tools | Map Reads to Reference

选取两个原始测序Reads,勾选Batch选项,点击Next

1496052197126328.jpg

检查一下所选文件是否有误。点击Next

1496052216183831.jpg

选择参考序列NC_000021 (Genome),点击Next

1496052237932240.jpg

设定Mapping参数。对于ChIP-Seq,建议使用严格的mapping参数,设定length fraction 0.5similarity fraction 0.8mismatchinseration deletion分别为233。选择忽略non-specific matches。如图所示。

1496052256347911.jpg

结果输出时选择勾选Create reads trackCreate report。完成。

1496052273382423.jpg

3. Calling peaks

3.1 Toolbox | Epigenomics Analysis| Transcription Factor ChIP-Seq

选择nrsf-chr21 (Reads),点击Next

1496052293634245.jpg

选择control-chr21 (Reads)作为对照,Maximum P-value for peak calling的参数值为默认值0.1。小的P-value可以得到较少数量的高质量峰。

1496052321131505.jpg

选择输出结果,如图。

1496052336854352.jpg

大约几分钟就可以跑完程序,输出结果:1. nrsf-chr21 (Reads) (Peaks)为所有Reads峰的列表结果2. nrsf-chr21 (Reads) (QC Report)ChIP-Seq实验的质量报告;3. nrsf-chr21 (Reads) (Peak shape filter)为符合条件的峰形结果;4. nrsf-chr21 (Reads) (Peak shape score)为含有打分信息的峰形图。

首先,建议查看一下quality control report,最重要的部分是Quality measuresnrsf-chr21 (Reads) (QC Report)含有实验组(1)和对照组(表2)的两个结果。

1

1496052353344899.jpg

2

1496052369122313.jpg

对于这里的3个测量值,在Notes中有详细的解释。由于,演示数据仅使用了原始数据中的部分Reads,所有这里的reads数目很低并不惊奇。正常情况下,要保证reads数目要足够。

3.2 Peak进行注释

Toolbox | Epigenomics Analysis | Annotate with Nearby Gene Information

选择要被注释的文件(nrsf-chr21 (Reads) (Peaks)点击Next

1496052385401658.jpg

选择NC_000021 (Gene)作为reference gene track,点击Next。保存。

1496052401115729.jpg

会得到名为nrsf-chr21 (Reads) (Peaks) (Annotated)含有注释信息的结果。

最终得到的所有结果:

1496052418128187.jpg

4. 查看结果

最好的查看方法就是建立一个Track List

Toolbox | Track Tools| Create Track List

把所有要查看的Track文件放到一个Track List中。

1496052433533809.jpg打开Track List,可以调整文件的上下顺序,也可以右键打开nrsf-chr21 (Reads) (Peaks) (Annotated)文件,会在下方显示所有PeakTable结果,单击Table中的某一个PeakTrack List会自动跳转到相应位置。PeakTable结果可依据P-value排序。

最强的Peakgene SYNJ1 (synaptojanin 1),该基因编码phospho-inositide phosphatase,可以调控膜上phospho-inositide phosphatase的水平。该酶的表达会影响突触传导。所以,该基因会被NRSF抑制并不惊奇。

1496052467337584.jpg

5. 提取峰区的DNA序列

此处,仅提取出峰区的DNA序列,可用于进一步分析,比如对于峰区DNA的基序分析可借助MEME等第三方工具。

Toolbox | Classical Sequence Analysis | General Sequence Analysis |Extract Annotations

选择nrsf-chr21 (Reads) (Peaks) (Annotated)文件,点击Next

1496052485870102.jpg

选择NC_000021 (Genome)文件,注释类型为Peak,并勾选Include annotation regionInclude annotation chromosome来结果一个有信息的名字,点击Next。保存,完成。

1496052502893554.jpg

由于,大多数外源测序分析软件可以识别Fasta文件格式,所以我们可以把结果导出为Fasta格式。File | Export,选择fasta格式,选择文件Extracted Annotations,导出。

1496052519744837.jpg

结束!


关注微信