什么是方框图?

方框图是数据科学武器库中最有用的工具之一。

在 6 分钟内,将向您传授 6 年来使用方框图进行 EDA 和解决问题的经验。

什么是方框图?
方框图是显示数据分布的标准化方法,它基于五个数字汇总:

  1. 最小值、
  2. 第一四分位数(Q1)、
  3. 中位数、
  4. 第三四分位数(Q3)和
  5. 最大值。

谁发明?
方框图由约翰-塔基(John Tukey)于 1969 年发明,是他在数据可视化领域开创性工作的一部分。

Tukey 的 EDA 强调,在对数据的基本分布做出任何假设或应用复杂的统计模型之前,使用简单的图形和数字方法来开始理解数据非常重要。

方框图就是在这一理念下产生的。Tukey的方框图是一种快速、简便的数据分布可视化方法。

使用方法
在探索阶段使用方框图。

  • 首先,评估与感兴趣的结果之间的相关性。
  • 然后,在探索性数据分析(EDA)中探索最重要的特征。

方框图在 EDA 中被大量使用。

方框图的主要特点:
通过快速可视化,方框图可以显示分布汇总、离群值、偏斜度,还便于在多个组或类别之间进行比较。

方框图方框范围

  • 从第一四分位数(Q1)到第三四分位数(Q3)。这个范围被称为四分位数间距(IQR),包含了数据的中间 50%。
  • 方框内的线代表中位数(第二个四分位数,Q2),它将数据集分为相等的两半。

线:
线是从方框中延伸出来,显示数据的范围。常见的方法是将其分别扩展到第一和第三四分位数的 1.5 倍 IQR 范围内的最小值和最大值。超出此范围的数据点被视为异常值,有时会绘制成单独的点。

异常值:
这些数据点位于晶须末端之外。它们不属于数据的主体,可能表明数据中存在变异、实验错误或新发现。探索这些异常值!

偏度:
如果中位数与 Q1 和 Q3 的距离不相等,或者晶须的长度不相等,则表明数据是偏斜的。

这就是关于盒状图/方框图的八大概念。