回答:
中心极限定理使得严格的直观思想是,随着样本的大小增加,与某些群体相关的某些测量的平均值(从某些样本估计)的估计得到改善。
说明:
想象一下,一片森林里有100棵树。
现在想象一下(相当不切实际),以米为单位,其中四分之一的高度为2,其中四分之一的高度为3,其中四分之一的高度为4,其中四分之一的高度为4高度为5。
想象一下,测量森林中每棵树的高度,并使用这些信息构建一个具有适当选择的箱尺寸的直方图(例如1.5到2.5,2.5到3.5,3.5到4.5和5.5到6.5;我意识到我没有指定边界所属的bin,但这里没关系)。
您可以使用直方图来估计树的概率分布。显然,这不是正常的。实际上,提供端点是适当选择的,它将是一个统一的端点,因为对应于每个箱中指定高度之一的树数量相等。
现在想象一下,进入森林,测量两棵树的高度;计算这两棵树的平均高度并记下它。多次重复该操作,以便您获得大小为2的样本的平均值的集合。如果要绘制平均值估计值的直方图,则它将不再是统一的。相反,在森林中所有树木的总体平均高度附近可能会有更多的测量值(基于大小为2的样本的平均值的估计值)(在这种特殊情况下,
因为会有更多 估计平均值 靠近 真实人口的意思 (在这个不切实际的例子中已知),远离平均值,这个新直方图的形状将更接近正态分布(在平均值附近具有峰值)。
现在想象一下,进入森林并重复练习,除了你测量3棵树的高度,计算每种情况下的平均值,并记下它。您将构建的直方图将对真实均值附近的平均值进行更多估计,扩散程度更低(在任何一个样本中挑选三棵树的机会使得它们都来自任何一个终端组 - 或者非常高或非常短---不到挑选三棵高峰的树木。您的直方图的形状包括平均大小的估计(每个平均值基于三次测量)将更接近正态分布的形状和相应的标准偏差(平均值的估计值,而不是父母群体的估计值)将是小。
对每个平均值的树木重复4,5,6等树,并且您将构建的直方图看起来越来越像正态分布(具有逐渐变大的样本大小),其平均值为 的分布 该 估计平均值 更接近真实均值,并且均值估计的标准差变得更窄和更窄。
如果你重复练习(简并)测量所有树木的情况(在几种情况下,记录每种情况下的平均值),那么直方图将仅在其中一个箱子中估算平均值(对应于真实均值的那个),没有任何变化使得“直方图”的标准偏差(从中估计的概率分布)将为零。
因此,中心极限定理指出,某些人口平均值的某些估计值的均值渐近逼近真实均值,并且均值估计的标准差(而不是父母群体分布的标准差)对于较大的样本量,逐渐变小。