首页 > 其他专区 > EndNote >

如何利用GraphPad Prism建立频率分布, 统计教程

EndNote 2023-01-12

本篇我们来学习下如何根据一列数据创建和绘制频率分布。

查看数据分布

首先我们要思考是否真的需建立频率分布?不妨先看看自己的数据分布情况。因为在很多情况下,要了解数据分布情况,只需要画个列散点图就可以。

  • 左侧图形是根据“频率分布”样本数据绘制的列散点图(以平均值为线);
  • 中间图形是相同数据的盒须图,以圆圈形式示出了低于2.5%和高于97.5%的数值。请注意,Prism为如何定义盒须图提供了几种选择;
  • 右侧图形是一个Prism8特有的小提琴图。该图示出了中值和四分位数,就与盒须图一样,但也显示出了平滑的频率分布,你可以一眼看出数据是如何分布的。

三个图表均可由Prism直接根据列数据表创建,无需手动分析的过程。下载.jpeg图1 通过Prism绘制的三种图形了解数据分布情况

方法:Prism创建频率分布

01 输入数据

选择“列”表格和列散点图。如果你尚未准备好输入自己的数据,请选择样本数据集:频率分布数据和直方图。

02 选择分析

点击“分析”,然后从“列”数据分析列表中选择“频率”分布。

下载 (1).jpeg

图2 “频率分布”选项卡

03 选择分析选项

在频率分布中,每个箱型包含的数值数量在定义该箱型的数值范围之内。在累积分布(Cumulative Distribution)中,每个箱型包含的数值数量位于范围之内 或者 箱型下方。并且根据定义,最后一个箱型是数值总数。下图左侧表示的是频率分布,右侧表示的是相同数据下的累积分布,两者均绘制每个箱型中的数值数量。

下载 (2).jpeg

图3 频率分布VS累积分布

累积分布的主要优点是你无需决定箱宽。而且,你可以将精确累积分布制成如下所示。数据集有250个数值,因此该精确累积分布有250个点,这使得它有点参差不齐。当你选择使用百分比而非分数制成累积频率分布的表格时,这些百分比实际上是百分位数,结果图有时称为 “百分比图”。

下载 (3).jpeg

图4 累积分布图

04 相对频率OR绝对频率?

选择相对频率用于确定每个箱型中数值的分数(或百分比),而非每个箱型中数值的实际数量。例如,如果45个数值中有15个数值落入一个箱型中,则相对频率为0.33或33%。如果选择累积频率和相对频率,可以使用概率轴绘制分布图。以此方式绘图时,高斯分布呈线性。

05 箱宽

如果你选择累积频率分布,建议选择创建精确的分布。精确分布无需选择箱宽,每个数值都会被单独绘出。普通的频率分布,就需要确定箱宽。如果箱宽过大,只有几个箱型,就无法很好地展现数据的分布情况(如下图左一)。如果箱宽过小,也无法很好地展现数据的分布情况(如下图右一)。到底放多少个箱型合适呢?这取决于你的分析目标和样本量。如果你的样本量足够多,即使展示的箱型很多,频率分布也会很平滑。有一条经验法则是:箱型的数量等于样本量以2为底的对数。Prism在自动生成箱宽时,采用的就是这个法则。(同时也会满足默认箱宽为一个整数)下图示出了具有三种不同箱宽的相同数据。中间图表示出了正常的数据分布。左侧图表中的细节过少,而右侧图表中的细节则过多。下载 (4).jpeg

06 箱型范围

除决定控制箱型数量的箱宽外,你还可以选择第一个箱型的中心。这可能很重要。假设你的数据是百分比,从0到100。数值不可能小于0(负值)或大于100。假设你想将箱宽设为10,这样就可以做成10个箱型。如果第一个箱型以0为中心,其将包含 - 5至5之间的数值;下一个箱型将包含5至15之间的数值,下一个箱型将包含15至25之间的数值,以此类推。由于不可能出现负值,因此,第一个箱型实际上只包含0 - 5之间的值,因此,其有效箱宽是其他箱宽的一半。此外,还需注意的是,有11个箱型包含数据,而非10个。如果你改为第一个箱型以5为中心,它将包含0 - 10之间的值,下一个箱型包含10 - 20之间的值,等等。现在,所有箱型均包含相同数值范围,且所有数据均包含在十个箱型中。边界上的一个点与保持较大数值的箱型对应。因此,如果一个箱型由3.5变为4.5,下一个箱型由4.5变为5.5,则4.5将落在第二个箱型中(由4.5变为5.5)。

07 重复数据

如果你输入重复值,则Prism可以将每个重复数据放入其相应的箱型中,或者计算重复数据的平均值,且只将平均值放入箱型中。在分析过程中,会忽略所有过小而无法放入第一个箱型的数值。此外,你还可以输入上限,以便从分析中忽略较大的数值。


Copyright © 2016-2023 office学习教程网 office.tqzw.net.cn. All Rights Reserved.