• CLC  NGS MLST分型及流行病学研究

CLC NGS MLST分型及流行病学研究

细菌分型,如肠道沙门氏菌、李斯特菌、副溶血性弧菌、大肠杆菌、志贺氏杆菌、弯曲杆菌和阪崎肠杆菌等,常用于对食品安全和公共健康的监管中。病原体全基因组的二代测序(NGS)数据也更频繁的用于常见病原体爆发的分子诊断中。本教程将为您展示如何使用CLC Microbial Genomics Module插件中的Workflow和其他工具,实现来自细菌样本的NGS数据分析。准备工作:CLC Genomics

细菌分型,如肠道沙门氏菌、李斯特菌、副溶血性弧菌、大肠杆菌、志贺氏杆菌、弯曲杆菌和阪崎肠杆菌等,常用于对食品安全和公共健康的监管中。病原体全基因组的二代测序(NGS)数据也更频繁的用于常见病原体爆发的分子诊断中。本教程将为您展示如何使用CLC Microbial Genomics Module插件中的Workflow和其他工具,实现来自细菌样本的NGS数据分析。

准备工作:CLC Genomics Workbench 9.0及以上版本,或者Biomedical Genomics Workbench 3.0及以上版本;CLC Microbial Genomics Module插件。

本教程目的:实现对肠道沙门氏菌培养物的NDS数据分析。1. 创建metadata(样本分类及其他备注信息)和results table(分析结果汇总表);2. 使用已建好的Workflow分析数据,如鉴定最佳匹配的参考序列和其分类学地位、MLST分析、寻找抗性基因和鉴定潜在的污染物;3. 基于系统发育进化树,进行疫情分析

下载和导入数据:本教程所使用数据来源于文献-Leekitcharoenphon et al., 2014,仅使用47个样本中的5个样本进行分析展示,并且每个样本仅使用1/5reads数。

MGM_metadata.xlsx:记录了样本的分组及其他备注信息。Raw reads5个测序数据,每个文件仅含原有测序Reads1/5Reference genomeNZ_CP014971用于re-mappingDatabases:用于做细菌分型所需的所有参考数据库,可通过CLC Microbial Genomics Module插件进行下载。

1.       数据下载及导入

数据下载地址:http://download.clcbio.com/testdata/typing_tutorial/typing_tutorial_5.zip,下载完成后解压缩。

1.       通过File | Import | Standard Import中的Automatic Import选项,导入Raw reads Reference NZ_CP014971,并保存。

1491582758632825.jpg

2.       通过File | Import | Import Metadata导入样本的metadata信息。导入方法请参考教程-肠道菌群宏基因组数据分析

1491582802913220.jpg

3.       通过File | Import | Standard Import导入参考基因组数据库、抗性基因数据库和MLST Schemes。对于您自己的数据,可通过CLC Microbial Genomics Module插件中的Download Database for Find ResistanceDownload MLST Schemes (PubMLST) Download Bacterial Genomes from NCBI三个下载工具实现对应物种参考序列的下载。

2.       创建Result Metadata Table

 使用之前导入的Metadata Table - "Samples"生成Result Metadata Table

         打开Typing and Epidemiology (beta) | Result Metadata | Create Result Metadata Table,选取Samples,点击Next,并保存。

1491582802913220.jpg

  这样,一个名为"Samples results"的文件就建好了,双击打开该文件,由于尚未进行任何分析,现在里面的内容是空的。单击Add Novel Samples按钮,所有的样本信息(源自于Metadata Table)就添加进来了,并以黄色背景显示。保存。

1491582905890671.jpg

  此时,在您的文件导航栏中应该有以下图中所展示的这些文件:

1491582928962965.jpg

3.       使用已建好的Workflow分析数据

"Type Among Multiple Species" workflow

用于在预先设定的多个物种中进行样本的定种。这个Workflow允许您在预先自定义的参考序列列表中,找出样本最佳匹配的那条参考序列,从而实现定种以及鉴定可能的污染物。此外,这个Workflow还可以鉴定相关的MLST Scheme和分型、鉴定突变和寻找抗性基因。

由于在这里我们有多个样本要分析,所以我们需要以Batch mode(批模式)进行多样本的数据分析。具体操作如下。

1.       在左下角的Toolbox中,找到"Workflows"文件夹下的Type Among Multiple Species Workflow,右键,选择Open Copy of Workflow

1491583026137817.jpg

2.       打开后的Workflow会在右边的可视区出现,双击绿色的那个模块(Result Metadata Table input),去定义Result Metadata Table

3.       在打开的对话框中,指定好我们之前生成的Result Metadata Table叫做"Samples results",点击完成。

1491583047585963.jpg

4.       保存Workflow到左边的文件导航区中。

5.       打开Result metadata table,选中5个样本。

1491583081421539.jpg

6.       单击Find Associated Data,这样会打开所有和这5个样本相关联的元素(文件)。

7.       选择所有5个文件类型为"Sample"的文件,在下方单击 With Selected | Copy of Type Among Multiple Species(注意前提是该Workflow已经打开)。

8.       在新打开的对话框中,这5个样本是默认选中状态,勾选左下角的Batch,点击Next

1491583127131216.jpg

9.       在下一个对话框中,重新校验一下上一步选中的样本,点击Next

10.   在下一个对话框中,可以看到之前已经定义好的"Samples results"。点击Next

11.   "Trim Sequences" 对话框中,参数默认,点击Next

12.   在下一个对话框中,定义参考数据库为"Salmonella and Staphylococcus reference list",使用K-mer Spectra工具寻找最佳匹配参考序列。

1491583152103749.jpg

13.   "Identify MLST Scheme from Genomes"对话框中,选择已经下载好的三个MLST SchemeStaphylococcus aureus, Staphylocossus epidermis Salmonella enterica)。

1491583178373774.jpg

14.   "Find Resistance"对话框中,定义所需的抗性基因数据库- "Database for Find Resistance"

1491583209446110.jpg

15.   "Basic Variant Detection" "Identify MLST"两个对话框中,参数默认。点击Next

16.   在最后一个对话框中,建议保存到分别的文件夹中(勾选Create subfolder per batch unit),点击完成。

1491583309477609.jpg

  查看结果

       Workflow跑完以后,每一个样本的分析会有15个输出结果,你可以在文件导航栏中查看。此外,主要的分析结果会总结到Result Metadata Table中,所以,你可以打开Result Metadata Table ("Samples results") 查看主要结果。

"Best matches":最佳匹配上的参考序列,以及它的分类学位置("Best match,Description"),还有可能的污染物。

"MLST Scheme":样本的MLST分型结果,以及是否能下结论的(conclusive or not)。

"Resistance genes":样本中发现的抗性基因。

"Metadata":原有的样本信息。

Finding contamination结果中,可以获知"Best matches""Best match, % mapped""Contaminating species, % mapped"等信息。

1491583359648445.jpg       ERR277232这个样本仅有一伴的Reads mapped到了Salmonella enterica,而其它的mapped到了Staphylococcus aureus,在Elements table中,找到"Contamination report",双击打开查看关于该样本的详细信息,判定是否可用于后续的分析。

Finding non-conclusive MLST association

1.       打开高级过滤功能,如图。

1491583405730249.jpg2.       在第一个下拉菜单中,选择"MLST",第二个选项设为"contains",值为"non" (for "non-conclusive"),单击Filter

3.       本教程中,仅筛到一个样本,选择该样本,单击Find Associated Data

4.       可以看到共有15个相关的元素。

1491583453137249.jpg5.       查看"MLST report",双击打开。在这个报告中,可以看到7个位点的详细分型信息,以及该区域的覆盖度信息。另外,也可通过Track List结果查看每个位点的reads mapping信息。

1491583533578691.jpg探索最佳匹配结果,鉴定共同的参考序列Exploring the obtained Best match results and identifying a common reference

       回到"Samples results"中,清除掉过滤条件,查看"Best match"这一列。如果所有样本的"Best match"结果都一样,我们就可以直接去做SNP Tree的构建,但是,本教程中的"Best match"结果并不一致,所以不能直接去做SNP Tree,需要先通过构建K-mer Tree找到这5个样本最接近的一个参考序列,然后再去做mapping和变异(SNP)检出,才可构建SNP Tree

        1.       打开"Salmonella and Staphylococcus reference list"

        2.       单击左下角第四个图标Show table

1491583581776723.jpg

3.       筛选"Salmonella"序列。

4.       选择所有序列,单击Create New Sequence List,并保存,重命名为"Salmonella references subset"

构建K-mer Tree

1.       打开Result Metadata Table,选中5个样本,本教程没有放弃有污染的样本。

2.       单击Find Associated Data

3.       单击Quick Filter,选择Filter for K-mer Tree,可快速定位可用于K-mer Tree构建的所有文件。

4.       选中所有符合条件的文件。

5.       单击With selected,选择Create K-mer Tree

6.       在弹出的对话框中,已经默认选中了所有样本,然后把Salmonella specific reference list 也选进来。

1491583676667035.jpg

7.       参数默认,保存,完成。

1491583699942826.jpg

打开K-mer Tree,选择5个样本共有的一个最近的祖先作为参考序列。本教程选择reference NZ_CP014971用于下一步分析。

       1491583726115484.jpg

Map to Specified Reference

1.       在左下角的Toolbox中,选择Workflow Map to Specified Reference,右键,选择Open Copy of Workflow

1491583752420850.jpg

2.       在打开的Workflow中,双击Map Reads to Reference模块,在打开的对话框中定义参考序列为"NZ_CP014971"

1491583776425326.jpg

3.       双击绿色模块,定义Result Metadata Table Input”Samples Results”

4.       保存Workflow

5.       打开Result Metadata Table,选中5个类型为"Trimmed Reads"的样本(也可以是untrimmed reads)。

6.       单击With selected,选择Copy of Map to Specified Reference workflow

1491583824260772.jpg

7.       在弹出的对话框中,已经默认选中了5个样本,注意要勾选Batch选项。

8.       下一步中校验上一步选中的样本,单击Next

9.       下一步中,已经默认指定了之前定义的Result Metadata Table"Samples results"),点击Next

10.   "Trim sequences" 对话框中,参数默认,单击Next

11.   "Map Reads to Reference"对话框中,已经设定好了Reference,单击Next

12.   "Basic Variant Detection"对话框中,参数默认,点击Next

13.   最后一步,检查之前的参数设定,设定结果保存位置,完成。

SNP Tree构建

1.       Result Metadata Elements table中,单击Quick Filters

2.       单击Refresh按钮,会把新生成的结果添加进来。

3.       再次单击Quick Filters,选择Filter Remapped '(NZ_CP014971)' for SNP Tree选项。

4.       选中所有文件(5Read mapping5Variants tracks)。

5.       单击With selected,选择Create SNP Tree

1491583897701202.jpg

6.       "Create SNP Tree"对话框中,已经默认选中了5reads mapping文件,单击Next

1491583958514875.jpg

7.       在下一步对话框中,5variant tracks文件和"Samples results" Result Metadata Table也已经默认选中,参数默认,单击Next

1491583981673748.jpg

8.       保存,完成。

SNP Tree 构建结果

1491584014435309.jpg

可在右边的设置中,对SNP Tree进行修改和调整。


如果您对CLC软件感兴趣,欢迎加入我们的软件学习交流群:175136595。


关注微信