CLC Genomics Workbench V7.0 版本发布

发布日期:2014年2月11日


新特色和改进:

RNA-Seq on tracks:

RNA-Seq Analysis的输出结果基于tracks,含有read mapping、表达值和融合基因等信息。来自不同样本的tracks可以在一个track list中显示,提供了更好的样本间可视化比较。

RNA-Seq report中mapped 0 times的数据包括没mapping上的和mapping的位置超过Maximum number of hits for a read参数设定的。

基因水平和转录本水平的表达结果作为两个不同的track输出,可以放在一起进行视图查看。下游的分析可以基于两个中的任一结果。

基于转录本表达track的新的列“Relative RPKM”可以查看每个基因的选择性剪接转录本的相对表达。

Definition of RPKM

RPKM, Reads Per Kilobase of exon model per Million mapped reads, is defined in this way [Mortazavi et al., 2008]: 111#111 .

Total exon reads

This value can be found in the column with header Total exon reads in the expression track. This is the number of reads that have been mapped to exons (either within an exon or at the exon junction). When the reference genome is annotated with gene and transcript annotations, the mRNA track defines the exons, and the total exon reads are the reads mapped to all transcripts for that gene. When only genes are used, each gene in the gene track is considered an exon. When an un-annotated sequence list is used, each sequence is considered an exon.

Exon length

This is the number in the column with the header Exon length in the expression track, divided by 1000. This is calculated as the sum of the lengths of all exons (see definition of exon above). Each exon is included only once in this sum, even if it is present in more annotated transcripts for the gene. Partly overlapping exons will count with their full length, even though they share the same region.

Mapped reads

The sum of all mapped reads as listed in the RNA-Seq analysis report. Please note that the option to Map to gene regions only will affect the number of mapped reads, since all intergenic reads will not be mapped if this option is selected. This means that comparison of RPKM values between samples should only be carried out if this parameter was set in the same way for all samples.

基于新的expression tracks的Experiments可以用来使用read mapping和annotation检索track list。

现在可以对全基因组或者基因区段进行mapping。具体选项:Map to gene regions only(fast):效果是来自基因或转录本但是不是注释信息部分的reads将是unmapped或者map到有相似序列的另一个转录本上(例如假基因);Also map to inter-genic regions:map到基因外的reads只记为基因间区从而不贡献于基因表达,如果read均等地map到基因上和基因间区,read将被计数为map基因。

CLC Genomics Workbench 6.5引进的新的read mapping算法现在也用于RNA-Seq。这也就是说mapping速度会更快,但是对一些数据可能也需要更多的内存。对使用最新的注释数据的人类数据集(从Download Reference Genome下载的数据),最少需要16GB RAM,建议24GB RAM。如果还是有问题,也可以使用插件中提供的算法进行RNA-Seq Analysis。

全新设计的向导页面,可以使用tracks,包含了明确的定义参考序列注释文本具体应该使用那种的限制。

有三种对reference注释的限制规定:

Genome annotated with genes and transcripts:Eukarotes使用该选项,splicing考虑在内。注释好的基因组数据获得方式:

直接从Download Reference Genome Data下载的;

从来自fasta或gff/gtf文件的track输入;

从GenBank或EMBL文件输入,转换为tracks;

从GenBank下载后转换为tracks。

Genome annotated with genes only:应用在原核生物上。

One reference sequence per transcript:当reference是序列列表时适用。列表中的每个序列作为一个transcript,计算对每个序列的表达值。该选项在reference是RNA-Seq数据的de novo组装产物时最常用。选中该选项,仅需提供sequence track或者sequence list。

融合基因列表更改到了annotation track中,可在track list中检索read mapping。

Variants tracks可以使用来自expression tracks的表达值进行注释。

基于EdgeR的新统计测验

差异表达的统计分析工具扩展到包括‘Exact Test’(在EdgeR Bioconductor package中应用的)。该测验用于进行成对组间比较,实际使用TMM标准化。该精确性测验和Fisher’s Exact Test类似,但是还考虑了由生物变异度导致的过离散分布。GWB中采用的‘Empirical analysis of DGE’算法使用edgeR package 3.4.0版本中的默认设定。

系统发育树的新功能(以前为试用插件)

系统发育树的查看和使用有极大的提升。浏览器可以快速创建高质量、发表级别的进化发育树。

大的系统发育树可以轻松使用不同的缩放功能和小的minimap来查看。浏览器提供了两种可选的发育树展示图,分别是环形图和辐射图,非常适合查看非常大的系统发育树。

支持对系统发育树中节点相关的元数据的输入、编辑和查看。

基于k-mers进行系统发育树构建的工具。该方法避免了对输入数据进行多序列比对的高强度计算的步骤。该方法对近缘物种的全基因组范围的系统发育树构建尤其适用。(k-mers可以设定为3-50之间),仅在亲缘关系不太远的生物间进行进化距离分析时使用k-mer。

当用最大似然法构建系统发育树时对不同替换矩阵进行统计评估的工具。输出结果是基于最大似然法构建系统发育树的推荐的参数设置。

使用距离法构建系统发育树时增加了使用Kimura 80替换模型的选项。

可以从使用Jukes-Cantor替换模型或Kimura protein ML distance 评估的蛋白比对结果基于距离法构建系统发育树。

用户可以提供自己定义的起始树到ML inference工具中。

全新设计的图形化用户界面:

新的tool bar图形界面。

新的产品标识和颜色,包括初始屏幕。

新的背景图像。

重新组织的Tool-bar。

新的tab设计。统一了不同系统平台的外观和用户体验,对Mac用户尤其重要,因为之前的分区屏幕占据了很大的屏幕空间。

Side Panel和Views的新概念:

支持多屏幕显示:通过拖拽视图标签可以将视图移动到不同的屏幕显示。

新的Side Panel由多个调色板组成,组合和顺序可以自定义。

调色板可以分开后放置在屏幕的任何位置。

Navigation Area和Toolbox部分可以最小化来实现更大分辨率的数据展示。

缩放工具的重新设计:

重新设计的缩放工具(zoom tools),控制按键更接近数据区域。

缩放滑动棒显示当前的缩放水平,可以方便地调节缩放程度。

精细的缩放作为一个全新的特色,允许以微小的增量调节缩放比例。对如大的track视图查看效果尤其棒。

Zoom to selection按键现在可以用于track视图。

Navigation Area的数据拷贝较以前版本运行速度更快,使用的内存资源更少。这在CLC Genomics Server和Workbench间移动数据时的性能有极大的提高。


Tracks:

Annotate with known variants和Filter against Known Variants工具处理如dbSNP等大的参考基因组数据的速度有极大的提高。

Table filtering of tracks:现在可以在region列使用“overlap”和“doesn’t overlap”进行过滤,从而允许对特定位置的突变或注释进行考察。

Track list中Variant tracks上的提示信息现在包括track中突变的数目。

Identity Graph Threshold Areas工具现在可以鉴定比平均覆盖度高的区间。通过在“Identity Graph Threshold Areas”中设定“window-size”参数指定每个位置的窗口宽度计算平均值。

之前,当从VCF文件和UCSC中输入突变文件时,小部分的突变因为不是合理的替换或MNV(因为在末端含有参考序列的碱基)被忽略了。这些突变现在被修正后正确输入。这也影响Download Reference Genome Data工具。

Workflows:

可以批量设置工具元件的参数。从而可以对多个工具元件同时设定相同的参考数据。

Workflow本身可以嵌套进workflow。内部的workflow在单独的工具元件中是打开的(“unfold”)。

含有无效/未知元件的workflow显示得更漂亮和一致。

Sidepanel现在有选项显示编辑器中的规则,来指导优化workflow的大小(特别是输出workflow时)。

通过zoom out,Fit Width现在可以在编辑器中展示整个workflow。

侧边栏有个新的“Minimap”显示整个workflow的缩略图。可以控制视图中的workflow,并且支持缩放。

可以通过sidepanel改变workflow编辑器的设计(在preference中删除旧的设计)。

Workflow 中设置参数时有更好的确认。

如果一个工具需要来自两个工具的输入文件,输入文件可以通过连接部分或靶标元件的输入部分的文本菜单指定顺序。

Workflow的输出文件的名称可通过设置输出工具元件设定。

Workflow运行的参数现在可以以多种格式输出。

现在可以重置参考序列的参数。之前只能先移除整个工具元件后再重新添加。

Workbench中安装的workflow现在按照字母顺序排序。

Workflow的图形输出现在可以输出整个workflow或当前视图。

cpw文件可以拖拽到workflow manager中并被安装。

编辑器处理更大的workflow的速度进一步提升:

新的工具可以在workflow中实现流程化:

Create Track List(要求所有的track必须是workflow的输出文件)

Annotate with Flanking Sequences

Convert from Tracks

Statistical Tests中的所有工具

RNA-Seq Analysis

3D Structure viewer

Property viewer: Side Panel中的一个新标签。当鼠标置于其上时显示原子的详细信息。如果选中了多个原子(Ctrl-click),两个选中的原子间距将被显示,三个选中的原子夹角将被显示,四个选中的原子形成的二面角将被显示。如果Project Tree中的分子被选中,与该分子相关的元数据将显示在Project viewer中。

Issues List:与分子结构和他们的化学表征相关的issue将显示在Molecule Project的Issue List视图中。如果和分列的3D视图一起查看,选中的issue中的原子将在3D视图中被突出显示。

PDB importer的普遍改进。

双击Project Tree中的记录的信息将在左侧显示选中的分子或原子基团。

当选中原子(通过鼠标点击或从序列上选中),原子内容(整个残基或分子)将在3D视图中显示。从当前选中的内容菜单中,通过精确的选择或结合选择和原子内容(整个残基或分子)可以产生原子基团。

Amino acid changes:

有两列信息报告最长的转录本中的氨基酸改变。之前,所有转录本中的氨基酸改变都会报告,该信息仍然可以获得,但是许多用户更喜欢只使用最长的转录本,该信息现在报告在两列中:一列显示蛋白水平的改变,一列显示编码DNA水平的改变。

编码区上下游的突变只要在转录本中,现在就用编码DNA位置信息注释。为给出该报告结果,需要在使用amino acid changes工具时提供一个mRNA track文件,用来决定突变是否在转录本内。

Extract consensus sequence现在可以从现有的consensus sequence和reference sequence来拷贝注释信息。

当从mapping、conflict和低覆盖度区提取一致序列(extracting consensus sequence)时,包含它们在reference上的位置信息。

Read mapping现在可以输出为包含详细的每个碱基的覆盖度和包括插入缺失信息的碱基组成信息的列表(AGP格式文件为scaffolded contig输出,当scaffold被输出为fasta格式时,被打断为contig输出,产生的agp文件含有contig间关系的信息)。

当以fasta格式输出序列时,Trim annotations可以用来去除被trim掉的序列。(当以GenBank、Swiss-Prot或CLC格式输出序列时注释信息才能被包含在内输出,其他格式不能输出注释信息)。

Second peak calling改进:现在仅检测有明显峰形的测序峰,只检测和最高峰在相同区间的测序峰。另外,利用trim annotation的信息仅检测非trim区的测序峰,从而显著降低假阳性检测结果。最终的注释信息现在包括second peak和最大峰高度的比例信息。

Advanced table filter现在包括搜索“start with”的选项。

对Excel 2010文件(xlsx)的限制改进了:

多个表格可以输出为一个xlsx文件;

报告可以输出为xlsx格式;

超链接在xlsx文件中保存。

SignalP prediction现在升级为server可用、batch批量分析可用和workflow中可用。

Folder contents view:子文件夹将显示包含的文件数目。

Policy settings现在可以设定用户对“Download Reference Genome”工具的使用权限(使用online_search钥匙)(配置文件为settings文件夹中的policy.properties,仅管理员有此权限,每个钥匙可设定为allow或deny)。

Assemble Sequences 工具现在支持序列列表格式的文件输入。

REBASE限制性酶列表升级到310版本。

修正的错误:


Workflow:

  • 当“FitWidth”处于活动状态时,表现为“100%”显示。因此现在“100%”而非“FitWidth”处于活动状态。

  • 当连接或添加工具元件时,这些工具元件被放在较近的位置,不管是放大或缩小。

  • Adding a workflow output was undoable, but not redoable then.

  • 右键作为缩放按键。

  • 在server上运行的workflow的log文件现在和在workbench中运行的含有相同的信息。

  • 在编辑器中配置文件时,“Reset to CLC Standards”按键现在有功能了,可以重新设定为默认值参数。当安装或执行进行文件配置时,该按键无效。

  • Server执行workflow的log文件现在给出workflow被取消的时间。

  • 含有需要提供其他输入的工具元件的workflow不能批量运行。

  • 当添加数据到实验中(如运行任何statistical analysis tools)时软件崩溃的错误被修正了。

  • Track visualization:修正了各种错误。

  • extract consensus sequence工具修正了各种错误。

  • 含有很多“染色体”的track占用非常多的磁盘空间。现在这些track文件被更大地压缩了。

  • creating detailed mapping report时崩溃的错误被修正了。

  • 当将核酸序列翻译成蛋白质时,模糊碱基导致序列可能不能被合理翻译,而是中间出现终止密码子,只有编码氨基酸的密码子在蛋白序列中出现。现在终止密码子在蛋白质序列中表征为X。


改变:

  • NGS Core Tools的“Multiplexing”文件夹中的两个工具改变了:

  • “Process Tagged Sequences”重命名为“Demultiplex Reads”,并直接放在了NGS Core Tools文件夹中。

  • “Sort Sequences by Name”移动到了Sequencing Data Analysis文件夹中。

  • De novo assembly legacy插件不再提供使用。

  • Motif search:motif search创建的注释为“Motif”而非“Region”。

  • “Download”下的“Download Genome”工具重命名为“Download Reference Genome Data”,明确其可以下载的是参考基因组、突变数据和注释信息。

  • “Import”下面的“Fasta”工具重命名为“Fasta read files”,标明只用于输入fasta格式的read序列文件,而非参考基因组文件。因为“Fasta read files”允许包含read名称,而来自fasta文件的描述信息被忽略。所以,我们推荐使用Standard Importer 输入其他格式的fasta文件(如参考序列),因为Standard Importer还保存了序列的描述信息。


兼容性:

  • 该版本和CLC Genomics Server 6.0使用。

  • 该版本使用的read mapping和de novo assembler对应于CLC Assembly Cell 4.2.1。


关注微信