CLC Genomics Workbench V8.0 版本发布

发布时间:2015年2月24日


新的特色和改进:


新工具:

Create Track from Experiment. 该工具将Experiments转换为Tracks。在Experiment中,统计分析的结果作为单独的列注释到Experiments上。以track图像形式查看统计分析的结果有更多好处。

Link Variants to 3D Protein Structure可以在3D蛋白结构上查看氨基酸改变。在variant table上运行该工具后,突变能在蛋白的3D结构上查看。3D模型从来自PDB的结构模板上自动构建。该新工具在Resequencing Analysis | Functional Consequences | Link Variants to 3D Protein Structure。

Map Reads to Reference工具支持linear gap cost parameters and affine gap cost parameters。Affine gap cost支持从长串的插入或缺失中得到更准确的结果。

Linear gap cost:gap的罚分直接从gap的长度和插入缺失罚分计算出来。该模型通常对长的连续的gap中小的、片段化的gap适用。

Affine gap cost:与打开一个gap相关的额外的罚分被引入,这样长的连续的gap相对于短gap有利。

根据选择的模型不同,需要设定不同的参数控制read mapping中长的连续的gap如何罚分。如果设定为linear gap cost,需要设定插入和缺失罚分。

RNA-Seq Analysis中使用的read mapper升级到了上面描述的新的read mapper。该升级实现用6G内存运行RNA-seq分析,同时能提升分析结果。但是,在RNA-Seq analysis中不能使用affine gap cost。

Merge Read Mappings工具的性能提升了,特别是当参考序列数量非常大时,如将比对到de novo组装结果的reads进行整合时。

Amino Acid Changes工具扩展了额外的输出结果,能以track格式查看氨基酸变化。氨基酸颜色组合可以在侧边栏的“Track layout”和“Amino acids track”中改变。

Chromosome bands/cytogenetic ideograms现在能直接通过Download功能下载到Workbench中。该表征符号能添加到track list中更好地查看数据。

Ideogram也叫cytogenetic ideogram,是编号后的带型染色体图,显示了两条染色体臂和着丝粒的关系。


Tracks

改进的资源管理功能:处理含有大量染色体的参考基因组序列的track效率更高。这在没有参考基因组序列,如基于从头组装的结果的track时尤其适用。

当用额外的表格列填充variant track和annotation track时一致的输出结果。来自这些工具的输出track现在有相同数目的添加的表格列,并且表格列以相同的顺序排列。之前,当用相同的工具/工作流处理多个样本时,如果添加的列对所有突变行是空值,将被从最终的表格中移除,产生各种数目和相对顺序的额外的列。所有的列现在都保留,方便输出的表格进行下游分析,提供作为采用的富集/注释工具直接的视图参考,即使某些样本中这些列并未产生任何结果。

Variant track和annotation track表格现在可以用包含多个数字的单位(cell)对列进行分类和过滤。

改进的track viewer,使variant track显示相应的突变上的序列改变。

创建variant track和annotation track的性能增强。

图形化track文件现在在y=0之下显示负值(如期望的)。


Workflows:

当在workflow manager内安装Workflow时,新安装的Workflow被自动选中。

Workflow editor中的“Run”按键不再需要先保存Workflow才能使用。

Workflow中的执行导向图中“Reset to default”按键现在被激活了。

Workflow中的所有突变现在都列在了左侧。

引入snippets:Workflow的一部分可以被保存为snippet,在其他Workflow中被重新使用。

安装好的Workflow:现在能拷贝一个安装好的Workflow,通过点击一次然后右击安装的Workflow在视图区打开该拷贝。这里即选项Open Copy of Workflow。

一个额外的可选输出Create coverage graph,显示靶标区每个位置的覆盖度,添加到了Create Statistics for Target Regions工具上。

当输出表格到CSV、tab隔开的文件和Excel中时,数字的小数增加了。

3D molecule viewer的新特色:

Align to Existing Sequence实现将3D蛋白链连接到一个序列、序列列表或者一个已知的比对。

Transfer Annotations实现从连接的序列创建原子团(反之亦然)。

property viewer的设计改进。

水分子、DNA/RNA和糖类的PDB输入改进了。

当从PDB输入文件时,产生的分子工程现在包含引用信息(PDB ID和原始文献),可以在“Show History”视图中找到。

当使用“grouping on mature”参数时输出中添加了表征3’或5’方向的“Annotate and Merge Counts”列。

Batching:Processes和分析执行log文档中现在除了显示分析名称外也显示batch样本名称。

External Application Client插件现在在Workbench插件管理器中可以直接获得。


修正的错误:

当针对大数量的染色体参考序列进行大量reads mapping时几十亿的reads被扔掉的错误被修正了。该错误包括每次错误时read计数的溢出和至少20亿reads的丢失。

Read mapping中在某些重叠的paired reads处显示太多隐藏的插入(作为垂直的黑线)的显示问题被修正了。

当成功打开链接时表格中的链接和文本被切断的问题被修正了。

限制性酶切位点分析:限制性酶切分析表的“Cut position(s)”列值现在更像数字而非文本,即可以实现排序和筛选。

Identify Graph Threshold Areas工具现在支持使用负值定义阈值。


Workflows:

Workflow editor中“Reset to default”现在总是转换成正确的名字。

Workflow editor中当改变输入工具的参数配置时现在能正确引发验证操作。

Workflow editor现在能打开Workflow的图像化视图中已经崩溃的Workflow。

修正了在Workflow移植过程中会出现的一个例外。

在Workflow installer中有相同名称的数据现在能被捆绑多次。

之前含有自定义操作和Workflow的插件中Workflow不能被安装的错误被修正了。

之前运行Workflow时不能设置未锁定的输出结果名称的问题被修正了。

连接到server时来自server的有配置数据的Workflow(当在editor中打开时)现在自动验证,之前需要首先关掉Workflow并重启。

Workflow installer中最原始的Workflow文件现在可以直接输出,无需先重新启动Workbench。

保存的表格设置有时不起作用的问题被修正了。修正包括一个更加牢固/通用的方法来使用不同的列保存表格设置。为修正该问题,已有的保存的表格设置应该先在它能发挥作用的数据上加载(如当它被保存时有相同的列);然后用旧的名字保存表格设置来覆盖已有设置。

修正了导致batch运行时要保存所有结果却被打开所有结果的错误。

用外部应用输入BED文件的问题被修正了。

输入SAM/BAM文件时POS=0位置的比对输入不再失败,而是以unmapped输入。

返回“Find Binding Site and Create Fragments”工具的错误被修正了。

从track list中移除未被保存的read track时发生的错误被修正了。

进化发育树的元数据:列名中含有冒号的元数据的输入错误被修正了。

显示注释中少于3个碱基的蛋白质翻译的错误被修正了。

NCBI中检索PDB结构现在能正确显示PDB存档日期和物种类型。

Mapping Coverage exporter中的错误被修正了。

Reads tracks中reads计数显示器(reads track和含有track名称及reads数的盒子之前的数字)有时错误地显示为0的问题被修正了。

Small RNA Analysis -> Annotate and Merge Counts:当选择创建一个“grouped on mature”输出时,“grouped on mature”输出结果中小RNA同时根据5’和3’端分别成熟的序列分组。因此列表头从“Mature 5”改为“Mature”。

更正了使用F1帮助键的两个错误:1)当在Workflow工具中点F1时会出现不只一个帮助窗口;2)在工具窗口中点F1显示帮助。

有些情况下用GFF/GTF/GVF注释工具注释read序列列表时发生的错误被修正了。

Amino Acid Change工具:当mRNA track不能和所有的CDS track重合时,不能添加“Coding Region Changes”到与CDS重叠但没有与mRNA重叠的突变上。该错误被修正了。

从参考序列创建track偶尔出错的问题被修正了。


改变

现在来自de novo assembler的contig序列名称中的空白都显示为下划线。

插件更新和修正的错误

TRANSFAC Plugin更新,现在有两种操作模式:“Classic”和“Genomic”。Classic模式是旧有模式,以序列作为输入,注释这些序列。新的Genomic模式以基因组上的区段(一个annotations track)作为输入。另外,两种模式中都能指定相似性分值的总体阈值,用来筛选输出结果中包含的注释。

Metadata Import插件中列名中含有冒号的元数据的输入错误被修正了。

关注微信