CLC Genomics Workbench 是一款专注于基因组学测序数据分析的生物信息学类软件,其可视化的操作界面和可靠的分析结果大大方便了科研工作者对测序数据的分析。CLC Genomics Workbench 可实现重测序数据分析、从头拼接、RNA-Seq数据分析、small RNA分析和表观基因组学数据分析;此外,CLC的插件还可帮助您实现小型基因组的完整拼接、宏基因组学数据分析、基因预测、新转录本挖掘、转录因子结合位点预测等。那么,下面给大家介绍一下如何借助CLC Microbial Genomics Module 插件实现微生物样本的OTU Clustering分析。
为了鉴定样本中的微生物种类,首先要提取样本的DNA序列,PCR扩增16S或18S基因序列,也或者是其他基因序列,这里以16S序列为例,复制得到的序列使用NGS测序仪进行测序。生物信息学数据分析的任务就是对测序reads进行物种分类,并且定量。由于细菌的分类尚未完善,并且NGS的测序Reads中难免存在测序错误,我们就要使用Operational Taxonomical Units (OTUs) 这个人为指定的分类单元,再依据一定水平的序列相似性对测序Reads进行聚类,比如比较常用的97%相似性。这个插件的一级输出结果是生成一个OUT Table,里面记录了OTU的聚类和富集定量结果;二级分析是指对分组样本进行alpha 和 beta 多样性分析,以及其他的一些统计学显著性分析。
下面我们以一个刑侦案例来观看如何借助CLC Microbial Genomics Module 插件实现样本微生物的宏基因组分析。
在地点1处发生了一起杀人案件,警方把嫌疑人锁定在Mr. X身上,他说自己是无辜的,他从未去过Site 1,他整个周末只去了site 2和site 3。警方在他的屋中发现两双鞋,并且在鞋底都有泥土,嫌疑人说他是穿了这两双鞋分别去了Site 2和 Site3。调查者分别从两双鞋的鞋底和三个地点取了土样,提取DNA,PCR复制16S基因,并用NGS测序仪测序,期望通过比较样本的微生物组分来判断嫌疑人是否说谎了。
下面是用CLC 进行分析的流程及结果。
1. 数据汇入。12对paired end数据(site 1/2/3各两个重复;boot A/B 各三个重复)通过File | Import | Illumina 方法导入;通过Import | Standard Import 导入16S_97_otus_GG.clc OUT数据库和16s_primers_round_robin.clc 引物序列;通过Import | Import Metadata 导入metadata Excel 表,并于导入的12个数据进行关联,metadata记录了每个样本的分组信息。
2. 使用Workflow 分析数据获取OUT Table。通过Microbial Genomics Module | Metagenomics | OTU clustering | Workflows | Data QC and OTU clustering 运行Workflow。参数设置中:1. 选取所有的测序Reads,不勾选Batch选项;2. Trim sequence 中,选择已经导入的引物序列,其他参数默认;3. 在Optional Merge Paired Reads 窗口中,参数默认; 4. 在Fixed Length Trimming 选项中,勾选"Automatic read length"选项;5. 在OTU clustering 窗口中选择勾选Reference based OUT clustering选项,并选取OUT参考数据库;6. 设定结果输出位置,完成参数设定。下面呢,你就只需坐等看结果啦!Workflow如下图。
3. 一级结果 - OUT Table
在这个OUT Table里面,可以看到每个样本中所含有的OUT分类单元以及数量等信息,表中要显示的每列内容也可在右边的settings中进行设置。
单击左下角的第二个图标,我们可以柱形图形式查看不同样本的菌落组成比例。在右边的Aggregate feature中,你可以选择在Class分类水平对样本的OUT聚类结果进行展示,在下面的Aggregate sample 选项中可以选择以Type分组形式展示结果。从这个柱形图里我们可以看出来自Boot A和 Site 1的土壤样本的菌落组成上更接近,而不是和Site 2或Site 3的相似。
单击左下角的第三个图标,还可以饼图展示一个或者多个样本的菌落组成情况,如下图。
4. 进一步分析,调用Workflow: Microbial Genomics Module | Metagenomics | OTU clustering | Workflows | Estimate Alpha and Beta Diversities。参数:1. 选择OUT Table 用于分析;2. Alpha analysis 窗口,仅勾选“Number of OTUs”;3. Beta analysis 窗口,仅勾选D_0.5 UniFrac;4. 保存。Workflow 流程如下。
5. 二级分析结果- alpha diversity 和 a Principal Coordinate Analysis (PCoA) chart for the beta diversity。
Alpha diversity 可以反映OUT的数目随着抽样reads数目增多的变化情况。这里OUT的数目到后面尚未完全平缓,说明还需要更多的测序Reads,才能反应样本的OUT丰度。但是,仍然可以从图中可以判定嫌疑人没未穿Boot B去任何他所说的地方。
Beta diversity 可以估计不同样本之间的物种差异性。从这个3D PCoA图中可以看出,Boot A 上的土样被归类到案件发生地 Site 1上,也说明嫌疑人说谎了,他曾穿着鞋子A去了案件发生地。
6. 其它统计学分析
1. Heat Map
打开:Microbial Genomics Module | Metagenomics | Abundance Analysis | Create Heat Map for Abundance Table
结果:
从Heat map也可以同样得出类似结论。
2. PERMANOVA
打开:Microbial Genomics Module | Metagenomics | Abundance Analysis | PERMANOVA
结果:
由于重复数只有2-3个,在成对比较中,并未检测到差异显著性。
补充:插件中的所有alpha diversity 和beta diversity中涉及到的算法,如下图。
如果您对此文感兴趣,欢迎加入 CLC 软件的学习交流群:175136595。