• CLC  表观基因组学 Bisulfite-Seq数据分析

CLC 表观基因组学 Bisulfite-Seq数据分析

CLC Genomics Wrkbench 可以实现表观基因组学测序数据的分析,比如ChIP sequencing、Bisulfite sequencing、Histone Chip-seq等。之前已经讲过ChIP sequencing数据分析流程,今天接着以Bisulfite sequencing为例,给大家介绍一下如何借助CLC GWB实现表观基因组学测序数据分析。Bisulfite sequ

CLC Genomics Wrkbench 可以实现表观基因组学测序数据的分析,比如ChIP sequencingBisulfite sequencingHistone Chip-seq等。之前已经讲过ChIP sequencing数据分析流程,今天接着以Bisulfite sequencing为例,给大家介绍一下如何借助CLC GWB实现表观基因组学测序数据分析。

Bisulfite sequencing数据分析需要借助Bisulfite sequencing plugin,这是一个免费插件,插件安装后会出现在Epigenomics Analysis这个大的分类下。

1497463606508033.jpg

Bisulfite sequencing是通过使用亚硫酸氢盐处理DNA,来判定DNA的甲基化类型。DNA甲基化是表观遗传标记研究中最早被发现的,现在也是研究最多的。胞嘧啶甲基化水平的改变参与了基因的表达调控,并被证实可在多代中遗传,因而为表观遗传提供了理论机制。

亚硫酸氢盐处理DNA可以将cytosine碱基转为uracil碱基,但是5-methylcytosine residues(甲基化的胞嘧啶)不会受到影响。因此,亚硫酸氢盐处理诱导的DNA序列变化取决于个体cytosine碱基的甲基化状态,并可在单碱基水平评估DNA片段的甲基化状态。

本教程将会使用插件中的多个工具以及一些软件的独立功能。基本流程如下:

l  测序数据导入,参考基因组导入;

l  使用bisulfite模式,将测序Reads mapping到参考基因组上;

l  检测甲基化水平,并同时在两个样本中检测差异化的甲基化水平;

l  结果查看,调整输出参数

l  输出特定的Track文件类型

l  genome browser中查看结果,简单讨论

l  生成workflow,使操作自动化

本教程的英文版下载地址:http://www.clcbio.com/clc-plugin/bisulfite-sequencing/,含详细参数。

本教程仅使用部分数据作为演示,仅研究16号染色体上的一个2Mb长区域的甲基化变化,位于CD19基因附近。本文将会比较两种细胞类型:人胎盘干细胞HSPCs和成熟B细胞(可表达CD19 marker)。本实验的原始文章:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3412369/figure/F1/

数据下载地址:http://download.clcbio.com/testdata/bisulfite_sequencing_tutorial_data.zip

 

1.       数据导入

可以之间左键选中拖拽到软件中,或者:File | Import | Standard Import,选中zip格式文件,勾选Automatic import,单击Next,选择保存位置,完成。

1497463668143726.jpg

导入后,可以看到1. 10个测序序列文件(b-cells mapping hspc mapping),均为paired end数据; 2. 参考序列(CDSgene sequence); 3. 一个演示用Workflow

2.使用special bisulfite mode将测序reads mapping 到参考基因组序列上

打开Map Bisulfite Reads to Reference工具,选择测序reads

1497463687104364.jpg

选择参考序列,参数默认。

1497463706106641.jpg

下一个窗口,设定mapping参数,本次参数默认即可。

1497463732841443.jpg

最后,勾选Create a report,保存结果。

1497463752704042.jpg

重复以上步骤,hspc的数据也做一下mapping

本教程所使用数据仅使用了原始数据的部分Reads,大概每个文件有100K条,并且这些reads应该只匹配到基因组的2Mb区域,所以这个过程会很快。得到的结果文件如图所示。

1497463801571892.jpg

3.    检测甲基化水平,并同时在两个样本中检测差异化的甲基化水平;

打开Call Methylation Levels工具,勾选其中一个mapping文件,点击Next

1497463822363317.jpg

甲基化检出的参数设为默认值。

1497463848139061.jpg

Statistical tests and thresholds settings窗口中,选择Fisher exact统计学模型,选择另一个mapping文件作为对照,将window length 设置为200,其它参数默认。

1497463867405230.jpg

最后,勾选Create track of methylated cytosines Create methylation reports,保存结果。

4.    结果查看,调整输出参数

得到的结果文件如图。

1497463891791010.jpg

1497463910121297.jpg

打开Differential methylation (CG)文件,切换到table模式,这里由246个差异甲基化区域。下面,查看甲基化报告,并调整一些参数。打开任意一个甲基化报告文件(名字以Methylation-report结尾),查看第4部分- Methylation bias,从这里可以看出序列的前几个碱基处确实存在甲基化偏差,尤其是在每对比较的第二个碱基处,可能是由文库制备时的末端修复所致,末端修复可在亚硫酸氢盐转换后清楚甲基化标记。这暗示Read 1 soft clipRead 2 soft clip的参数需要调整。

请重做以上的步骤3,设置R1R2softclip参数均为5,而不是原来的0,并保存结果。

5  输出特定Track文件类型

在之前的参数设定中,我们设定了两个样本在全基因组上以连续的200bp框水平检测差异甲基化。有时候,这有助于我们关注那些CpG岛比较多的区域。有一种实验方法是测序并分析位于某一种限制内切酶位点的测序reads。常用的一种酶是MspI,切割后的片段经过片段大小选择,再用于bisulfite sequencing

打开Create RRBS-fragment Track工具,选择Homo_sapiens Chr16 sequence,参数默认,保存结果。

得到的结果文件Homo_sapiens Chr16 sequence (MspI)可作为Restrict calling to target regions工具的输入文件。

6      genome browser中查看结果,简单讨论

打开Create Track List工具(或使用),选择图中所示的所有文件。

1497464055156205.jpg

单击完成,将会生成一个Track List。双击其中的Homo_sapiens Chr16 2Mb Genes,可以在下方打开这个文件,在右上方的filter中输入 CD19进行搜索,在结果中单击CD19基因一行,上面的Track List会自动跳转到该基因区域,可使用右下角的放大缩小工具调整显示该基因区对应的结果。

1497464081115320.jpg

1497464108156420.jpg

在这个基因内部,我们可以看到仅有一个区域是差异甲基化的,当鼠标划过那个区域时,详细信息会出现,如上图。这里所鉴定出的区域是B细胞中高度甲基化区域。如果你要鉴定hspc中相对B细胞高度甲基化的区域,需要在做甲基化检出,交换输入和对照两个文件,结果如下图。

1497464220273897.jpg

发现hspcCD19基因的5’端区域是高度甲基化的,下面要结合reads mapping文件查看一下到底是哪个位点的碱基导致了这个差异。如下图。

1497464387318004.jpg

Hodges et al发表的一篇文章中,同样发现B细胞发育中,此位点为高度甲基化。

7.    生成workflow,使操作自动化

导入文件时,同时也导入了一个已经构建好的Workflow- BSseq example workflow,双击可以打开查看。

1497464415850351.jpg

这个Worflow做了两次calling differential methylation,输入和对照进行了互换,这样那些高度甲基化和去甲基化区域都可以在一个Workflow中鉴定出来。您也可以修改这个Workflow

单击右下角的Run,即可运行此Workflow,参数设定和一步一步去是一样的,运行完Workflow以后可以得到和一步一步去做基本相似的结果。


关注微信