在统计学和数据分析中,摘要统计(如中位数、第一四分位数和第三四分位数等)是数据集位置的度量。这是因为这些数字指示了数据分布中特定比例的位置。例如,中位数是研究数据的中间位置。一半的数据值小于中位数。类似地,25% 的数据值小于第一四分位数,75% 的数据值小于第三四分位数。

这一概念可以进一步概括。一种方式是考虑百分位数(percentiles)。第 90 个百分位数表示有 90% 的数据值小于这个数。更一般地说,第 p 个百分位数是一个数 n,使得有 p% 的数据值小于 n。换句话说,它表示了分布中的一个点,使得给定百分比的数据值小于该点。

连续随机变量的分位数

虽然中位数、第一四分位数和第三四分位数的序数统计通常是在离散数据集的情况下介绍的,但实际上它们也适用于连续随机变量。对于连续分布,我们使用积分来定义分位数。第 p 个百分位数是一个数 n,使得:

$\int^{n}_{-\infty}{f(x)dx}=p/100$

其中,$f(x)$是连续分布的概率密度函数,$[-\infty, n]$表示从某个起始点到 n 的积分范围,p 是百分位数的百分比值。

这样,我们可以通过积分求得连续分布的任意百分位数。换句话说,第 p 个百分位数是一个值 n,使得从分布的起始点到 n 的累积概率等于 p%。

分位数

再进一步地概括,分位数是对分布的划分,用来将数据集分成若干部分。中位数将数据集一分为二,而连续分布的中位数或第 50 个百分位数则将分布按面积划分为两半。第一四分位数、中位数和第三四分位数将数据划分为四个具有相同数量的部分。我们可以使用上述积分方法得到第 25、50 和 75 百分位数,将连续分布分成面积相等的四个区域。

我们可以将这个过程进行概括,而不仅仅局限于划分成四分位数或百分位数。当给定一个自然数 n 时,我们可以思考如何将一个变量的分布均匀地划分成 n 个大小相等的部分。这个问题与分位数的概念紧密相关,因为我们可以通过确定每个分位数的值来实现将分布分割成指定数量的部分。

要近似找到数据集的第 n 个分位数,我们可以首先对数据进行排序,然后在排序后的数据上通过 n-1 个等间距的点来划分。这些划分点将数据集分割成 n 个大致相等的部分,从而得到其对应的 n 个分位数。通过这种方式,我们可以在不需要知道具体分布函数的情况下,对数据进行分位数的估计。

如果我们有一个连续随机变量的概率密度函数,我们可以使用上述积分来找到分位数。对于 n 个分位数,我们希望:

  • 第一个分位数的左侧区域占整个分布面积的 1/n。
  • 第二个分位数的左侧区域占整个分布面积的 2/n。
  • 第 r 个分位数的左侧区域占整个分布面积的 r/n。
  • 最后一个分位数的左侧区域占整个分布面积的 (n-1)/n。

我们可以看到,对于任何自然数 n,n 个分位数对应于 100r/n 的百分位数,其中 r 可以是从 1 到 n-1 的任何自然数。

也就是说,对于连续随机变量的概率密度函数,我们可以通过计算不同分位数的区域比例来确定它们的值。这些区域比例与百分位数的关系是简单的整数倍关系。例如,对于四分位数,第一个分位数对应于 25% 的百分位数,第二个分位数对应于 50% 的百分位数,第三个分位数对应于 75% 的百分位数。通过这种方式,我们可以将分位数的概念与百分位数联系起来,并用相对面积的概念来描述它们的位置。

常见的分位数

某些类型的分位数非常常用,因此有特定的名称。下面是这些分位数的列表:

  • 2 分位数被称为中位数
  • 3 分位数被称为三分位数
  • 4 分位数被称为四分位数
  • 5 分位数被称为五分位数
  • 6 分位数被称为六分位数
  • 7 分位数被称为七分位数
  • 8 分位数被称为八分位数
  • 10 分位数被称为十分位数
  • 12 分位数被称为十二分位数
  • 20 分位数被称为二十分位数
  • 100 分位数被称为百分位数
  • 1000 分位数被称为千分位数

当然,除了上述列表中的分位数之外,还存在其他分位数。很多时候,所使用的特定分位数与从连续分布中取样的样本大小相匹配。这意味着在实际应用中,根据需要选择合适的分位数来描述数据的分布情况。

在常见的统计学和数据分析中,一些分位数具有特定的名称和用途。其中包括:

  1. 中位数(50% 分位数):将数据集分为两等分的值。
  2. 四分位数:将数据集分为四等分的值。
    • 第一四分位数(25% 分位数):将数据的前 25% 与后 75% 分开的值。
    • 第二四分位数(中位数,50% 分位数):将数据的前 50% 与后 50% 分开的值。
    • 第三四分位数(75% 分位数):将数据的前 75% 与后 25% 分开的值。
  3. 百分位数:根据特定的百分比值划分数据分布的值。
    • 第 90 个百分位数:将数据的前 90% 与后 10% 分开的值。
    • 第 95 个百分位数:将数据的前 95% 与后 5% 分开的值。
    • 第 99 个百分位数:将数据的前 99% 与后 1% 分开的值。

这些特定的分位数在统计学和数据分析中经常使用,有助于理解和描述数据的分布特征。

应用

除了确定数据集的位置之外,分位数在其他方面也很有帮助。假设我们从一个未知分布的总体中得到了一个简单随机样本。为了确定像正态分布或韦伯分布这样的模型是否适合我们所抽取的总体,我们可以观察我们的数据和模型的分位数。

通过将我们的样本数据的分位数与某个特定概率分布的分位数进行匹配,我们得到了一组配对数据。我们将这些数据绘制在散点图上,称为分位数-分位数图或 q-q 图。如果得到的散点图大致呈线性关系,那么该模型就适合我们的数据。

这也就是说,分位数不仅可以用来确定数据的位置,还可以用于其他方面的应用。当我们从一个未知分布的总体中获取了一个简单随机样本时,我们可以通过比较样本数据和特定概率分布模型的分位数来评估模型的适配程度。通过将样本数据的分位数与概率分布模型的分位数进行配对,并绘制在散点图上,我们可以判断模型是否适合描述我们的数据。如果得到的散点图大致呈线性关系,说明该模型适合我们的数据。

小结

中位数、四分位数和百分位数是常用的摘要统计,用于度量数据集的位置。在连续随机变量的情况下,我们使用积分来定义分位数。这些统计量有助于理解和描述数据的分布特征,并可以应用于模型拟合和数据对比等分析。常见的分位数包括中位数、四分位数和百分位数,在统计学和数据分析中经常使用。它们有助于确定数据的位置,并可以用于模型拟合和数据对比等应用。

(END)