• CLC 数据导入、QC 和 Trim

CLC 数据导入、QC 和 Trim

1.       数据导入可通过Import快捷方式导入数据,或者通过File | Import菜单栏导入。1. Standard import适用于大多数生物信息学数据的导入,如参考序列、序列比对文件、数据库等等,支持的具体文件格式如下:2.       Tracks文件Tra

1.       数据导入

可通过Import快捷方式导入数据,或者通过File | Import菜单栏导入。

1492259357108569.png

1. Standard import

适用于大多数生物信息学数据的导入,如参考序列、序列比对文件、数据库等等,支持的具体文件格式如下:

1492259392344813.jpg

2.       Tracks文件

Tracks文件的导入需用此导入方式,因为Track文件的正确解读往往需要更多的其他文件信息。支持的文件类型如下:

1492259419676201.png

3.       高通量测序数据及一代测序数据

需要注意的是,不同测序仪产生的数据需要用对应的方法导入。几乎所有主流平台的测序数据都支持导入,比如Illumina测序仪的mate-pair成对测序数据导入。

1492259441880774.jpg

4.       RNA Spike-ins

5.       SAM BAM mapping 文件

区别于Standard ImportStandard Import导入SAM BAM mapping 文件时,只会导入测序Reads,会丢失mapping信息。

6.       Import Metadata

一般为.xlsx/.xls文件,记录了样本文件的分组信息及其它备注信息。

1492259476353376.png

2. 高通量测序数据的QC

导入高通量测序的原始数据后,首先要做一下QC,评估一下测序质量。

Toolbox | NGS Core Tools | Create Sequencing QC Report

如要对多个测序文件进行QC,要勾选Batch选项,点击Next。在下一个对话框中勾选Create graphical report,其它选项要依据您的特殊需求,选择保存位置,点击完成。如您对参数有疑问,可单击左下角的问号,查询参数的意义。

1492259527159346.jpg

QC结果中最为重要的是2.43.5部分的Quality distribution,如图。

1492259544122812.jpg

3. Trim

Trim的目的是去除接头序列和低质量值的碱基或测序Reads,或者指定一个长度进行reads修剪或过滤。如果您拿到的是Clean data,是不需要做Trim的。

Toolbox | NGS Core Tools | Trim Sequences

多个文件需勾选Batch模式,并在下一步中检查确定你所选中的文件。

图片关键词

图片关键词

在下一步中,设置质量值修剪参数,一般默认即可。单击左下角的箭头可是参数恢复默认。

1492259606660408.jpg

下一步,去除Adapter序列,Adapter事先要已经设定好,可通过File | New | Trim Adapter list新建。

1492259635120833.jpg

在下一步中,可认为设定Reads两端几个碱基进行去除,也可依据Reads长度进行Reads 过滤,去除太长或者太短的Reads

1492259658140193.jpg

最后选择输出选项和保存位置,最后点击完成。

1492259676113294.jpg

程序在运行完Trim以后,会自动命名,在原文件名后面加上Trimed

1492259700771861.jpg

在做完Trim以后,测序序列的准备工作就做完了,然后就可以去做其他分析了,比如Mapping 或者从头拼接等等。


如果您对CLC软件感兴趣,欢迎加入我们的软件学习交流群:175136595。





关注微信