• IPA - 数据准备、上传与分析

IPA - 数据准备、上传与分析

IPA 组学数据上传与分析IPA可分析RNA-seq、microarray, miRNA、proteomic, genomic、SNP以及metabolic 等组学数据。本文将会介绍如何准备数据,并上传到IPA中进行分析。 任务:格式化数据,可被IPA识别;设定数据上传参数,比如ID和观测值Observation columns(表达值measurement values);设定分析参数

IPA 组学数据上传与分析

IPA可分析RNA-seqmicroarray, miRNAproteomic, genomicSNP以及metabolic 等组学数据。本文将会介绍如何准备数据,并上传到IPA中进行分析。

 

任务:格式化数据,可被IPA识别;设定数据上传参数,比如ID和观测值Observation columns(表达值measurement values);设定分析参数,如表达值的阈值等;分析。

 

1.数据准备

a. 假如你的数据在多个Excel中或者制表符分隔格式的文本中,请将其合并到一个文件中,另外,IPA也可识别CuffDiff格式的数据文件,详见Cuffdiff file import

b. 假如使用Excel文件,在数据表中需要进行基本的计算。比如,计算实验组 vs 对照组的平均比值和重复实验的P值。理想情况下,上传数据的fold changes log ratios 或者 log fold changes值。

c. 确保最多只有一行表头,上传数据时,IPA可选择忽略第一行。

d. 将分子的ID放到第一列,假如不在第一列,IPA会自动在后面几列是否为分子ID,并猜测分子的ID类型,分子ID的类型识别请看Data Upload definitions

e. IPA可依据第一行的表头名字,猜测每一列的数据类型。比如IPA发现某列的表头文字为“fold change”,它会将这一列定义为Expr Fold Change

1496663851345157.jpg

f. IPA最多允许一次导入20个观测值(或者说20组实验数据),一个观测值就是一个实验组与一个对照组之间的比较。比如说,你有三个不同时间点的数据都是和开始时(0 time point)进行的比较,每组数据的计算值都是fold changesp-value,意思就是说,你有三个观测值,每个观测值有两个表达值,更多话题相关内容查看Data Upload definitions。假如你的数据文件超过了20个观测值,请缩减到20个观测值,或者在数据导入时仅选择20个观测值。

g. 每一个观测值(Observation value),最多允许有8个表达值(measurement values)。比如说fold changep-valuesthe average intensity of expression 等。

 

2. 运行IPA

 

3. 上传数据到IPA

a. 选择File>Upload Dataset...

b. 选择要分析的数据文件

c. 点击 Open

你的数据会出现在"Dataset Upload - …"窗口中

1496663882159992.jpg

d. 选择“Flexible Format”,其他选项为遗留工具。

e. 可以尝试单击Infer Observations button,让IPA去猜你的数据表中的每一列是什么。如能能猜对的话,就可以省去下面的保存步骤,否者就需要单击表头上面的按钮来定义每一列内容。

f. 如果你的数据表中含有列表头,要保证Contains Column Header 设置为 Yes

g. 选择合适的Identifier Type(s)IPA一般都会猜出合适的ID类型,但还是建议您再去检查一下是否有误。另外,不要同时选择所有的Identifier Type,这可能会导致错误的匹配。

h. 如果数据来源于常见的芯片平台,可以从下拉选项框中定义来自哪个平台,否则设置为“Non Specified/applicable”。设定好合适的平台,在做Core analysis时会自动使用相同的平台作为“Reference”,将会提高p-value计算的精确性。

i. 定义每列内容的类型。设置分子ID列,检查Dataset Summary 页查看匹配上的分子数和没有匹配上的分子数;设置第一个观测值Observation 1,然后设置第一个观测值的两个表达值(Expr Fold Change Expr p-value),重复本步骤设置其他观测值;不相关的列可以设置为Ingore

1496663915793118.jpg

j. 自定义列表头。单击EDIT OBSERVATION NAMES,在下拉选项框中选择新的名字或者输入一个新名字,完成后单击OK

1496663939954315.jpg

h. 单击右下角的保存按钮,会打开一个新的对话框,选择保存位置,设定文件名,单击保存完成,文件会保存在Dataset files文件夹下面。

1496663964129099.jpg

 

4. 创建Core analysis

File>New>Core Analysis…会打开Create Core Analysis对话框,然后选择数据文件。

 

5. 设置Filters and General Settings for Analysis参数

Reference Set参数:所用数据库的全部分子总数会用于统计学显著性检测,在你上传数据的时候你可能已经设定了数据来源(芯片平台)。其他参数如Optional AnalysisData SourceConfidenceSpecies, and Tissue & Cell Lines options 可设定为默认值,或依据个人选择进行设置。

 

6. 设定阈值Cutoffs

仅分析数据中那些显著差异表达的分子是很有必要的。比如,你上传的是完成的芯片数据,你需要设定一个阈值,这样IPA就只分析那些显著差异表达的基因。

首先输入一个阈值,然后单击Recalculate按钮,来重新计算可用的分子数。

注意:建议分子数不超过3000个,这样会减小噪音干扰。每次分析最大的分子数为8000个。

1496663983128501.jpg

 

7. Run Analysis

单击右下角的 Run Analysis,选择分析类型,设定分析名字,单击OK,然后会弹出一个对话框告诉你分析已经开始。分析完成以后,会发送邮件到你的邮箱中告诉你分析结束了,分析结果会出现在右边Project Manager中。一般每个分析耗时不会超过十分钟。

 

8. 打开分析结果

关于结果解读,请参考教程- IPA Core Analysis 结果解读


关注微信