• CLC De Novo Assembly and BLAST

CLC De Novo Assembly and BLAST

本教程为您展示,如何使用CLC Genomics Workbench软件中的基础工具实现单端高通量测序数据的从头拼接从而拿到Contigs,进而对其Blast注释。演示数据来自454测序仪,为大肠杆菌的测序数据,测序Reads刚超过400000条。1. 导入数据数据下载:http://resources.qiagenbioinformatics.com/testdata/raw_data/454.

本教程为您展示,如何使用CLC Genomics Workbench软件中的基础工具实现单端高通量测序数据的从头拼接从而拿到Contigs,进而对其Blast注释。

演示数据来自454测序仪,为大肠杆菌的测序数据,测序Reads刚超过400000条。

1. 导入数据

数据下载:http://resources.qiagenbioinformatics.com/testdata/raw_data/454.zip

解压缩后,通过File | Import | Roche 454导入。注意,Ecoli.FLX.fna Ecoli.FLX.qual两个文件要同时选中,勾选Remove adapter sequence,不勾选Paired readsDiscard read names可勾选可不勾选,点击Next。保存,完成。

1501485936137740.jpg

2. 组装拼接

所使用的测序Reads平均长度在235bp左右,期望通过使用de novo assembly of the reads工具获得较长的连续序列。

De novo assembly tool工具的运行原理及参数解释请参考:

http://resources.qiagenbioinformatics.com/manuals/clcgenomicsworkbench/current/User_Manual.pdf

De novo assembly tool工具可产生两种不同类型的输出结果,一种是简单的Contig,只是Contig的序列列表,另外一种是含mapping信息的Contig列表,是在获取Contig以后,又将测序Reads mapContigs上。

如果你后续要做变异检出,含有mapping信息的Contig输出结果是有意义的。并且,在设置拼接参数时,可允许依据mapping信息修正那些拼接得到的Contig,这样那些没有reads 覆盖的Contig区域会被切除掉。

拿到的Contig 列表还可用于其它多种分析,比如寻找基序类型,或者做Blast

 

2.1 从头拼接

Toolbox | De Novo Sequencing | De Novo Assembly

1501485986629081.jpg

选择Ecoli.FLX文件,单击Next

下面设定拼接参数,这里选择默认参数,点击Next。如果您对参数感兴趣,可单击左下角的问号,会弹出参数解释窗口。

1501486003854955.jpg

输出结果类型设置。前面已经提到,可以选择simple contig output,仅会得到Contig序列列表,速度相对较快,本次分析勾选Create simple contig sequences (fast)。当然您也可以选择map reads back to contigs(slow)模式,这样还需要设定一些reads mapping时的罚分参数。

1501486049966235.jpg

选择生成报告,保存结果及存储位置,单击完成。

本次分析应该会很快,一般来说分析快慢取决于电脑配置。可以在左下方监控分析进程。

1501486092139823.jpg

2.2 查看结果

分析报告:信息涵盖核酸分布、Contig长度信息,如N25N50N75值等。

Contig序列列表:单击左下角的表格图表,可以列表方式查看生成了多少条Contig,另外,还可列表头对contig进行排序,如长度等。也可选中多个Contig,单击正下方的Create a New Sequence List将其提取出来。

1501486113124744.jpg

3 Blast

一种调研Contig的方法是去检查它与公共数据库里的序列是否有高相似性,这可通过CLC软件里的Blast工具实现。

Toolbox | BLAST | BLAST at NCBI

选择刚刚保存的几条Contig序列,单击Next。类型选择blastn,使用Nucleotide collection (nr)数据库,单击Next。设定Blast搜索参数,可单击左下角的问号查询相关参数,这里参数设置如下图。最后保存,完成。

1501486131972948.jpg

Blast结果

打开Blast结果,文件名为Multi BLAST。这里可以看到这几条序列BLAST 结果的概要。在右边的settings panel中,你也可以调整要显示的列。下图中,5个序列的比对结果依据最小的E-value进行了排序,此外,你也可依据Identify等进行排序。

1501486154539403.jpg

这个总结表可导出为Excel格式,或者CSV格式。

双击其中某一行,可打开这一序列的具体BLAST结果。


关注微信