什么是自由度(在统计中自由度是什么?)之前,一位读者问我是否可以试着解释自由度在统计学中的意义。从那时起,我一直在思考因为请求非常谨慎,像某种野兽,我不确定我是否可以安全地把它打倒在地。 自由度不容易解释,他们在统计中的一些先进和复杂的许多不同的情况下出现。 在数学方面,他们在技术上定义为一个随机向量域的维数。
但我们不会讲到这些,因为自由度通常不是你需要了解执行统计分析,除非你是一个研究的统计学家或有人研究统计理论。然而心中真想知道,为了冒险和好奇,下面是一些例子,提供一个统计数据的基本要点。不同的自由度 首先忘记统计数据,想象你是一个风趣的人,喜欢戴帽子,你不关心什么是自由度,你相信多样性是生活的调味品。不幸的是你有约束,你只有7个帽子。然而,你想每天戴不同的帽子。
在之一天,你可以戴7帽子中的任何一个。第二天,你可以从剩下的6个帽子中选择,第三天你可以从剩下的5个帽子中选择,等等。 第六天,在这周没有戴过的帽子中你还有2个帽子选择。但你选择你的帽子后6天,在7天你没有可以选择的帽子戴。你必须戴最后剩下的帽子。你有7 - 1 = 6天的"帽子"自由的帽子你可以改变! 这是统计中的自由度的一种理念。自由度通常被广泛地定义为"观测"(信息的片段)在估计统计参数时自由变化的数据的数量。自由度:单样本t检验 现在想象你没有帽子,你进入数据分析。 你有一个10个值的数据集,如果你不估计,每个值可以取任意数量,对吗? 每个值是完全自由的变化。 但如果你想用单样本t检验测试一个10样本总体均值,你现在有一个约束的均值估计。这个约束到底是什么? 根据定义的意思,下面的关系必须保持:数据中所有值的总和必须等于nx的平均值,n为数据集的数量值。 如果一个数据集有10个值,10个值的总和必须等于平均值x 10。如果10个值的均值为3.5(你可以选择任意数量),这种约束要求10个值之和必须等于10 x 3.5 = 35。有了这个约束,数据集的之一个值是可以自由变化的。对于任何值,所有10个数字值和对于35仍然是可能。 第二个值还可以自由变化因为无论你选择何种值,它仍然允许的可能性的总和为35。 事实上,前9个值可以是任何东西,包括这2个例子: 34, -8.3, -37, -92, -1, 0, 1, -22, 99 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9但要有所有10个值的总和为35,并有一个平均值为3.5,第十个值不能改变。它必须是一个特定的数字: 34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> 10TH value must be 61.3 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> 10TH value must be 30.5因此你有10 - 1 = 9自由度,不管您使用什么样本量或者是你在使用样本平均值的最后一个值是不自由变化,你最终得到n- 1自由度其中n是样本容量。 另一种方式是,自由度的数量等于"观测"的数量减去所需的观测之间的关系(例如,参数估计数)。对于单样本t检验一个自由度估计均值,剩下的n- 1自由度估计可变性。自由度定义特定的t分布,用来计算t检验p值和t值。
注意,对于小样本(n),有较小的自由度(n - 1对应的单样本t检验),t分布有胖的尾巴。这是因为t分布是专门设计提供更多保守的测试结果在分析小样本(如在酿酒行业)。 随着样本容量(n)的增加,自由度数量增加,t分布接近正态分布。自由度:卡方检验 让我们看看另一个方面,一个卡方检验的独立性是用来确定两个分类变量是否相关。对于这个测试,自由度是在两行和列的边际总数的约束条件下,可以改变的分类变量的双向表中的单元格数。所以每个"观察"在这种情况下是一个个体的频率。 考虑最简单的例子: : 一个2×2表,为每个类别的两类两水平。
不管您使用什么值的行和列边际总数。一旦设置这些值,只有一个细胞的值可以改变(这里显示的标志可能是四个个体的任何一个)。一旦你输入一个个体的数量,所有其他个体的数量是预先的行和列的总数。 他们不是自由变化。因此,卡方检验的独立性自由度为1的2×2表。 类似地3 x 2表有2自由度,因为只有两个给定的一组细胞可以不同的边际总数。
如果你尝试用不同大小的表,最终你会找到一个通用公式。对于一个r行和c列的表,可以改变个体的数量(r1)(c1)。 这就是独立的卡方检验的自由度公式! 自由度定义卡方分布用来评估独立的测试。
卡方分布是正态分布,随着自由度的增加,它接近正常的曲线。自由度:回归 回归的背景下,经常说到自由度。而不是失去一个剩余的读者仍然阅读这篇文章(嗨,妈妈!),我开门见山。 回想一下,自由度一般等于观测的数量(或信息)-参数估计的数量。当您执行回归,一个参数估计在模型中的每一个术语,并且每一个都消耗了一个自由度。因此,包括多元回归模型来减少过度自由的程度可估计参数的变异性。事实上,如果不是足够的数据量方面的数量在你的模型中,甚至可能不会有足够的自由度(DF)误差项和没有假定值或f值可以计算。 你会得到输出这样的。
如果发生这种情况,你需要收集更多的数据(增加自由度)或删除从您的模型(减少所需的自由度数量)。尽管在一个随机向量的域界存在,自由度确实真实的、有形的影响你的数据分析。
来源:博客,欢迎分享本文!
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。