多文本导入今天介绍下如何一次导入71个txt文本,每个文本2列数据,一共142列。希望看完这个不要再一次次复制粘贴了,多次复制又累又容易出错。操作步骤很简单,在Data按钮下面选择impo......
2023-01-12
高斯分布的重要性
统计检验可以分析一组特定数据,以得出更普遍的结论。有多种方法可以做到这一点,最常见的是基于“群体中数据有特定分布”的假设。目前,最常用的分布是【钟形高斯分布(又称“正态分布”)】。该假设是许多统计检验(例如,t检验和方差分析,以及线性和非线性回归)的基础。
在阅读其他关于高斯分布(又名“正态分布”)的书籍时,有两个统计术语可能会让人觉得困惑:
在统计学中,“正态”一词是钟形高斯分布的另一名称。但在其他情况下,“正态”一词有很多含义(比如,“无疾病”或“常见”)。
在统计学中,通常将线或曲线周围的点的散点称为“误差”。“误差”一词仅指偏离平均值。通常将这种偏离视为由于生物变异性或实验不精确所导致,而非错误。
高斯分布的起源
当许多独立随机因素以相加方式产生变异时,会出现高斯分布。这里举一个例子来帮助大家更好地理解:
想象一个非常简单的“实验”。你使用移液器,取一些水并称重。移液器理论上每次可以吸取10微升的水,但实际情况是每次吸取9.5到10.5微升的水。如果吸取一千次,并创建一个结果的“频率分布直方图”,将如下图所示:
平均重量为10毫克,相当于10微升水的重量(至少在地球上如此)。分布平坦,无高斯分布迹象。
那么,我们让实验变得更复杂。使用移液管吸取两次,然后称量结果。现在得到的平均重量是20毫克。但你可能会希望这些“误差”在某个时候可以消失。结果可如下图所示:
每次移液都会产生一个平坦的随机误差。将它们相加后,分布变得不平坦。例如,仅当两次移液基本上朝同一方向出错时,才能获得接近21毫克的重量,这种情况很少见。
现在让我们将该实验增加到十次移液,观察下总数的分布情况:
↑这个分布看起来很像理想中的【高斯分布】。重复实验15,000次,会更接近高斯分布。
该模拟演示了一个可以通过数学方法证明的原理。如果你的实验散点有许多来源是相加的和几乎相等的权重,且样本量很大,那么散点会接近高斯分布。
高斯分布是一种相对理想的数学分布。很少有生物分布(若真存在)真正服从高斯分布。高斯分布从负无穷大扩展到正无穷大。如果以上示例中的权重真的服从高斯分布,则权重可能为负值(但可能性极低)。由于权重可能是负值,分布不能完全服从高斯分布。但它非常接近高斯分布,因此可以使用假设高斯分布的统计方法(例如,t检验和回归)。
统计学的中心极限定理
高斯分布在统计学中起着核心作用,因为它包含一种称为“中心极限定理(Central Limit Theorem)”的数学关系。如需理解该定理,遵循该理想试验:
创建一个已知分布群体(不必为高斯分布)。
从群体中随机挑选许多相同大小的样本。将这些样本平均值制成表格。
绘制平均值频率分布的直方图。
中心极限定理表明:
如果你的样本足够大,即使群体不服从高斯分布,平均值的分布也会呈现高斯分布。由于大多数统计检验(如t检验和方差分析)只关注平均值之间的差异,中心极限定理让这些检验即使在群体不服从高斯分布的情况下也能很好地工作。但为确保有效,样本量必须相当大。到底有多大?这取决于群体分布与高斯分布的不同程度。假设群体的分布并非十分不寻常,样本量为10通常就足以使中心极限定理成立。
如果想深入了解理想高斯分布为何如此有用,建议找一些统计学教材学习一下中心极限定理。
相关文章
多文本导入今天介绍下如何一次导入71个txt文本,每个文本2列数据,一共142列。希望看完这个不要再一次次复制粘贴了,多次复制又累又容易出错。操作步骤很简单,在Data按钮下面选择impo......
2023-01-12
今天教大家如何绘制时间轴图,并展示网格线的使用方法和坐标后缀的编辑。通常,在GraphPad中的Column中,新建一组数据后,会自动生成散点图,然后对其进行相应的编辑,即可将一张散点图......
2023-01-12
在Origin软件绘图过程中经常会遇到以下情况,比如图表中出现很大一块空白区,这样既浪费空间,也使得数据不集中影响查看数据和排版的美观。为了使得数据更易读并节省空间,可以用设置......
2023-01-12
1、打开软件,选择空白;自动生成的表格只有两列,如果你的数据组多,可以在页面空白处单击鼠标右键增加新列,就出现很多啦。然后,将整理好的数据粘贴进来2、生成图形;全选需要做......
2023-01-12
Endnote是科研小伙伴们写作论文时最常用、功能最强大的文献管理软件之一。用Endnote写作中文论文,比如中文期刊论文、硕博士毕业论文,可以说是每一个科研小伙伴们的必修课。但由于......
2023-01-12