首页 > 其他专区 > EndNote >

通过这几道实例习题,让你掌握GraphPad Prism统计分析

EndNote 2023-01-12

GraphPad Prism可谓数据分析表现小能手,能文能武能统计能画图~在我们的单元课中,有跟大家分享了Prism如何正经地作图以及变换数据花式做图,那它做统计时如何施展拳脚的,以下让我们由浅入深的来学习下。

习题一

MCF-7细胞过表达MKL-1、STAT3,或MKL-1加上STAT3,检测N-cadherin的相对表达量,pCDNA3.1为对照。请用合适的统计方法对下列模拟数据进行分析:

 640.png

再给个示例图提示

640.jpeg

本题示例图来源于文献PMID:28499590;Fig 1A

答案:单因素ANOVA

看结构这只有一个分组的维度,即细胞的处理方式不同,所以在Prism里数据录入的形式应该选择Column。但Prism的方向跟Excel不同,组别分列,样本(或重复测量值)分行,所以在Excel中复制数据后,到Prism里要用“Ctrl+Shift+T”来粘贴,将数据转个90º。组名也是一样的做法。 640 (3).png

接下来,多组数据之间的比较,首先想到单因素ANOVA;但要先做正态性检验,若不符合正态分布,则应采用非参数检验。 1) 正态性检验:点工具栏上的Analyze之后,在弹窗中选择Column statistics,勾选上所有组别。

640 (1).png

点OK之后的弹窗中,把高斯分布(即正态分布)下的三个检验方法都勾上。简单理解一下这三种方法:当样本量大时,三种方法的结果大同小异;样本量小时,一般只有SW法能计算出结果。至于大小样本的界定,还有不少争议,如30、200、2000为界。没把握就先都选上再看咯。Prism推荐第一种,但第二、三种更常用,SPSS里就是提供后两种的结果。

640 (2).png

说句题外话,Prism开发组似乎不太喜欢KS法,因为不灵敏,认为它只是个历史情怀。在新版使用说明中讲到:“早期版本我们曾提供KS法,现在还是把它放在这(为了保持一贯性),只是不再推荐。”毫不掩饰的一脸嫌弃.jpg,所以不造将来的版本是否会淘汰它。本例中N=3,果然只有SW法能出结果,并且很直白地告诉你有没有通过(pass)正态性检验,这里是Yes,符合。

640 (4).png

2) 单因素ANOVA 再点一下Analyze,在刚才Column statistics的上方就是one-way ANOVA。同样勾选所有组别。 640 (6).png

接下来的弹窗,在第一个选项卡(实验设计)中,本例都是独立样本,所以选第一个,没有匹配。下边是否假设为高斯分布,刚才检验过了,选符合。 Tips:注意区别Prism中使用的两个很容易混淆的词组,replicate values和repeated (或matched、paired) measures。前者可以理解为独立样本,如本文每个实验都重复做至少3次,用分别制备的质粒和细胞,就属于replicate。如果同一份细胞检测处理前和处理后的蛋白表达,则属于时间上有匹配的样本,要选用repeated / matched / paired的相关算法,这个以后会说。

640 (5).png 

第二个选项卡多重检验,选择各组间如何比较,都跟对照组比还是各组都两两比较,还是跟哪个特定组比。本例就选全都两两比较。 下载.jpeg

但多组的两两比较会增加族错误率,所以要采取一些较正方法,通常用Bonferroni,也可以点开下拉框选择其他,比如Tukey、Sidak。下边控制假阳性率是Prism新增的方法,你也可以试试。

下载 (1).jpeg

点OK之后,结果中包含好几个表,先看ANOVA总表。上边的summary中的p值表示这些组是否有统计学差异,但具体在哪组还不知道。下边的Brown-Forsythe检验即方差齐性检验(若每组都N>5,则还有Barttlet检验)。方差齐也是应用单因素ANOVA的前提之一,不齐则仍需做非参数检验。在SPSS里是要主动勾选是否做方差齐性检验的(用Levene法),而Prism则默默地算好了。最后一句仍是直白提示,各组标准差没有显著差异,所以是可以继续应用ANOVA的结果的。

下载 (2).jpeg

所以接下来看下边的多重比较表: 下载 (3).jpeg

哪组跟哪组比、有没有差异、P值、可以打几个星号之类的细节都有了。这就可以标在图上了。(你问为啥跟示例图不一样?跟你讲了这是模拟数据不是原文数据嘛~)在图上打标注的方法也很简单,就用工具栏上的画图和文字工具就可以了。

640 (7).png

习题二

先来看看昨天的那道思考题:MCF-7细胞用野生型(WT)和突变型(M)Vimentin promoter的荧光素酶质粒后,再分别进行和上题一样的过表达处理。请用合适的统计方法对下列模拟数据进行分析:

下载 (4).jpeg 下载 (5).jpeg

示例图来自文献,PMID:28499590;Fig 2B

答案:双因素ANOVA

这回有两个分组维度,一个是MKL-1和/或STAT3,看它们是否促进MCF-7细胞的Vimentin的转录;一个是野生型和突变型是否有差异。所以在Prism里应选择分组(Grouped)的数据类型,填3个重复测量值。

640 (8).png

然后直接从Excel原形贴过来就行。

 下载 (6).jpeg

分析方法就显然是双因素ANOVA。点Analyze之后,找到Two-way ANOVA,把所有组都选上。 640 (9).png

接下来选择实验设计,这里是独立样本,没有匹配。下边的因子名称纯粹为了阅读报告方便,自己随缘填填吧。 640 (10).png

在多重比较选项卡中,因为我们既想了解各行(即MKL-1和/或STAT3过表达)间的差别,又想了解各列(即CArG box是否有突变时)间的差别,所以选交叉比较。校正方法继续选用Bonferroni呗。

下载 (7).jpeg 

第一个总表也就看一眼,各行、各列和交叉比较都是有差异的。 下载 (8).jpeg

下一个多重比较表则是看具体的两两比较结果。 下载 (9).jpeg

啊好多呀~根据实验意义选取有用的来描述吧。

习题三

25对肾细胞癌(RCC)患者的癌和癌旁组织样本,用qRT-PCR检测miR-766-3p的表达。为减小系统误差每个样本有3个测量值。请选择合适的统计方法对下列模拟数据进行分析:

640 (11).png

截取前5例

下载 (10).jpeg 

示例图来源于文献,PMID:28657135;Fig 1A

答案:配对T检验

这回只有一个分组维度,并且题目已经说了是配对样本,就可想到配对T检验了。不过配对T检验本来是用Column的数据类型,但如果选Column的话,你是没法填上每个样本有3个值的数据的。这里有两种处理方法,一是可以在Excel中用AVARAGE()函数计算好均值,再贴到Prism中。另一种则是选择Grouped的数据形式,3个重复测量值,然后原样贴过来,Prism会自用采用均值计算。我就用第二种吧。 下载 (11).jpeg

截取前5例配对T检验的前提则是组间的差值符合正态分布。且不同于非配对T检验,此处不要求方差齐。可以像课件里的那样先在Excel中计算出两组的差值,再贴到Prism里来做正态性检验,这是很正经的思路。不过我想说,Prism是个很调皮的软件,他们自己推荐的是先斩后奏法。点Analyze之后,在Column analyses里选择T检验,把两组都选上。

下载 (12).jpeg

实验设计选择配对,下边的高斯(正态)分布先假装它符合。

下载 (13).jpeg

在选项中,单尾还是双尾就是根据自己的知识和科学假说来选了。如果有理由推断某组应该比另一组大,则选单尾,如果出现哪组偏大都有理由解释则选双尾。下边是关键,勾选画出差值。

下载 (14).jpeg

这样你会在结果中看到一个差值的表:

下载 (15).jpeg

并且右下方会有弹窗提示,说T检验本来是为Column型数据设计的,没有亚组。现在有3个亚组,所以采用平均值来计算。这正是我想要的,Prism真乖~ 然后你在这个Differences表的界面上点Analyze,做正态性检验,还和第一题中所说的一样。

640 (12).png

现在三种方法计算的结果一致,组间差值符合正态分布,那刚才的T检验结果就拿去用了呗~

下载 (16).jpeg

P值如上,有显著差异。这个界面也会有弹窗提示说使用了平均值,看看就好。那么万一不符合正态分布呢?在结果报告表的界面,工具栏Analyze旁边有个改变参数的小图标:

下载 (17).jpeg

然后改回非参数检验就可以了。或许你可以自己先画个频率分布直方图来看看形状估摸一下,提高命中率,省得后边改参数。画图的话,图片分类选Column,横条往右拉,找到前后对比图就行了,这能很好地表现配对数据。

640 (13).png

习题四

10只小鼠随机分成两组,测试药物对指标M的影响,在服用药物前后不同时间点对指标M进行检测,结果如下,请分析药物A对指标M是否有影响。 640 (14).png

这次木有文献,木有原图。

答案:样本匹配的双因素ANOVA

这数据可以理解为用两个维度来描述,一个维度是干预方法,一个维度是时间,而且在时间上形成配匹,所以用双因素ANOVA。 操作有点像第二题,但区别在于实验设计上,要选择每行代表不同时间点、纵向配匹样本。

640 (16).png

在多重比较选项卡中,没有能一次满足我们需求的选项,所以得分两次做。一次是解决各时间点上药物组跟安慰剂组有没有区别的问题,后边Options里的校正方法如前。

640 (15).png

另一次是解决各个时间点跟基线时间有没有区别。下边可选择每一单元跟对照组单元(第1行)比较,校正方法如前: 下载 (18).jpeg

看看结果,第一次的分析如下,24h和48h时出现了不同处理之间的差异,后来又趋近了。 640 (17).png

第二次分析结果则是,安慰剂对照组不出意外地变化不大,而药物组也是24h和48h与基线时间有差异,后来又趋近了。 640 (18).png

画出图来大概就是这样:

下载 (19).jpeg

习题五

LncRNA-A、miRNA-B、Gene-C的表达如下,共30例,请分析三者的表达关系:

640 (19).png

截取前5例木有文献示例。

答案:线性回归或相关性分析

很明显,这是在同一批样本中检测了三个基因的表达,那么维度只有这一个。要看三者之间的两两关系,可以用简单的线性回归。选XY格式的数据表,把数据直接贴过来。点Analyze之后,你会很快看到XY analyses下有个线性回归的选项。不过下边还有一个大同小异的Correlation,一会再说说它。 下载 (20).jpeg

后边的选项看起来复杂,其实也挺好理解,很多选项都默认就行了,所以原谅我懒一回不截图了~ 得到的结果有斜率、截距,以及表示相关程度的R2、P值。 下载 (21).jpeg 画图时,可以选择各组分别出图,并加上拟合线: 下载 (22).jpeg 这样就得到了两张图: 下载 (23).jpeg 但线性回归是只能做一组X和各组Y之间的关系,所以如果要看B和C的关系,则要另建一个表,以B为X轴、C为Y轴再做一遍。不过刚才提到的Correlation,则提供了另一种办法。那就是不管X轴!把数据全贴到Y轴上。 下载 (24).jpeg 这样,Analyze选Correlation之后,右边会出现三列,全选点OK来到下一个弹窗,选第一行计算各个Y轴数据之间的相关性。下方会提示根据数据是否符合正态分布,从而决定用Pearson法还是Spearman法。单尾双尾的选择如前述。 下载 (25).jpeg 得到R值的矩阵就是这个样子: 640 (20).png 还有一个P值的矩阵: 下载 (26).jpeg P值的意义我们都熟悉了。在具有统计显著性的基础上,看看各对变量之间的R值,正相关还是负相关、相关程度如何。这个R和线性回归里的R是一样的,只不过报告中一个有平方一个没平方。并且散点图没有拟合线。它们的确有所区别。线性回归多是用于预测,在X轴可控、可干预的情况下预测Y轴事件的变化。而相关性分析多用于观察现象,看两者是否同步变化及其变化的关系,无所谓谁是X谁是Y。但也看到有些学者不主张把它俩分这么清楚,毕竟算出来都一样,而线性回归也是给它们的关系提供一种描述方式。所以你也会发现不少文献里会用线性回归描述相关性。不过到画图时就要想一下了,如果再多几组,则有一种表现策略是作散点图矩阵。 下载 (27).jpeg 这种矩阵图当然对角线上下两半是一样的,可以只画其中一半,随你~ 不要怀疑,上图就用R做的,示个意而已~大家可以探索下用Prism怎么做。R只有一句咒语:plot(Data),没错又是因为我懒。(但这么短的命令只能管素颜)再用R值矩阵做个热图,表现各组间相关程度。这回是Prism了(格子少的热图是真丑,我就示个意~>_<~):  

下载 (28).jpeg


Copyright © 2016-2023 office学习教程网 office.tqzw.net.cn. All Rights Reserved.