• CLC  宏基因组测序之功能分析

CLC 宏基因组测序之功能分析

本教程目的是首先对来不同来源的样本进行宏基因组测序数据的组装,然后调查功能区别。Whole Metagenome Functional Analysis (beta)这个模块可实现不同样本的微生物功能组分分析、微生物群体多样性分析等的比较分析。 要求:CLC Genomics Workbench (版本8.5 或者更高)或者Biomedical Genomics Workbench (版

本教程目的是首先对来不同来源的样本进行宏基因组测序数据的组装,然后调查功能区别。Whole Metagenome Functional Analysis (beta)这个模块可实现不同样本的微生物功能组分分析、微生物群体多样性分析等的比较分析。

 要求:CLC Genomics Workbench (版本8.5 或者更高)或者Biomedical Genomics Workbench (版本2.5 或者更高) MetaGeneMark pluginCLC Microbial Genomics Module (v版本 1.2 或更高)

 概述

1. 导入NGS Raw Data,预处理;2. 通过De Novo Assemble Metagenome工具,组装得到Contigs3. 使用MetaGeneMark插件鉴定Contigs上的基因和CDS序列;4. 使用Annotate CDS with Pfam Domains工具和Gene Ontology (GO)数据库、Pfam Domains数据库,实现CDS序列的功能注释;5. 基于注释信息,使用Build Functional Profile工具构建Gene Ontology profile功能谱,用于评估功能差异;6. 使用Merge Abundance Tables生成一个多样本合一的数据表abundance table7. 最后,进行统计学分析。

 演示数据下载

原数据集中含4个样本,分为两组AB。组A的细菌主要是一些进行光合作用(Photosynthesis)和固氮作用(Nitrogen Fixation)的微生物,而组B的细菌主要是一些病原菌(Pathogenesis)。分析的目的是找出两组微生物间的功能差异。为了保证运行速度,本教程仅使用部分测序Reads,仅考虑光合作用、固氮作用和致病性等功能集合。

数据下载链接:http://download.clcbio.com/testdata/typing_tutorial/functional_tutorial.zip

下载的数据包括:4对测序数据;MetadataPfam database亚集合;GO database亚集合。

完整版的Pfam databaseGO database可通过Download GO Database t工具下载。

 数据导入

1. Import | Illumina导入8条测序序列,"fastq"格式的文件。参数如图所示。点击NEXT,选择保存位置,完成。

1493042665781457.jpg

导入后的测序文件会自动添加(paired)后缀,如图。

1493042715118879.jpg

2. 导入MetadataImport | Import Metadata,选择下载数据中的Group metadata.xls,要关联的数据选择4个测序文件,匹配模式选择Partial,如图。

1493042733618323.jpg

1493042755134160.jpg

3. Pfam GO databases导入,可直接拖拽到CLC中,或者通过Standard Import导入。

最终导入的全部文件如下。

1493042795467540.jpg

 

序列拼接和注释

1. Microbial Genomics Module | Metagenomics | Functional Analysis | De Novo Assemble Metagenome

选择四个样本,并勾选Batch选项,点击Next,在下一步确定选择的样本是否有误。

1493042818526278.jpg

2. 在下一步"De novo options"中,设定参数Minimum contig length200,选择Longer contigs模式,并确保Perform scaffolding选项为未勾选状态,点击Next。保存,完成。

1493042835904140.jpg

1493042854800692.jpg

3. 下一步需要注释得到的Contigs序列了。Toolbox | GeneMark Gene Finding | MetaGeneMark。选择4个上一步生成的Congtig List文件,勾选Bath选项,点击Next。在下一步中,检查选择的文件是否有误。

1493042908476576.jpg

4. 在下面两步中,使用默认的参数设置。保存,完成,如图。

1493042925250789.jpg

1493042941325449.jpg

5. 下一步就要使用Pfam domains GO terms数据库注释我们的CDS序列了。Microbial Genomics Module | Metagenomics | Functional Analysis | Annotate CDS with Pfam Domains。勾选Batch模式,选择以"-genemark"结尾的4Contigs List文件,点击Next。进一步确认文件。

1493042964126423.jpg

6. 下一步,使用``Pfam-A v29 - Tutorial subset.clc ''文件作为pfam database``GO database -

Tutorial subset.clc ''文件为GO database,其他参数如图。点击Next,保存,完成。

1493043028140985.jpg

注释后的Contigs 序列打开如下图。

1493043053259739.jpg

 

构建功能谱

下一步要把原始的测序Reads重新做一下Map,从而可用于估计样本中每个功能的富集值。

1. Toolbox | NGS Core Tools | Map Reads to Reference。选择``set_A1_1 (paired) ''文件,点击Next。下一步中,设置``set_A1_1 (paired) contig list-genemark ''reference,点击Next

1493043111601799.jpg

2. Mapping的参数为默认值。结果保存时,输出结果勾选Create stand-alone read mappings。保存,完成。

1493043134122722.jpg

1493043155322092.jpg

3. 下面就要计算功能谱了。Microbial Genomics Module | Metagenomics | Functional Analysis | Build Functional Profile。勾选Batch选项,选择4read mapping文件,点击Next,确认样本无误后,点击Next

4. 下一步,定义GO database,如图。

1493043176803704.jpg

5. 输出Create GO functional profile,保存,完成。

1493043204136505.jpg

6 现在,就得到了每个样本的功能谱。

1493043222106137.jpg

7. 下面需要把每个样本的功能谱数据合并到一个文件里面。Microbial Genomics Module | Metagenomics | Abundance Analysis | Merge Abundance Tables。选择4GO profiles文件,勾选Batch选项,保存,完成。

1493043304367233.jpg

8. 得到一个名为``merged'' 的文件,可以打开查看一下。组B中的"pathogenesis" "toxins"要更高一些,组A中则主要是"photosynthesis" "nitrogen fixation"

图片关键词

统计学分析

Microbial Genomics Module | Metagenomics | Abundance Analysis | Create Heat Map for Abundance Table。选择"merged"文件,参数默认,如distanceEuclideanclustersComplete linkage。点击Next,勾选"No filtering",勾选Next,保存,完成。双击打开结果。

1493043398120007.jpg

就如我们最开始所描述的,组B里面的toxin biosynthesis pathogenesis是过表达的,组A里面的富集了photosynthesis nitrogen fixation等功能。数值也可先提前做一下转化或者标准化。

此处我们还可以使用其他统计学手段来分析不同组之间的差异富集,比如韦恩图等。

尽管这个结果并不稀奇,但是面对更复杂的问题,它往往是一种可靠和很好的科研实践,所以,快来试一试吧!


如果您对CLC软件感兴趣,欢迎加入我们的软件学习交流群:175136595。


关注微信