数据科学中的实用统计学(第2版)
上QQ阅读APP看书,第一时间看更新

1.3 位置估计

表示测量数据或计数数据的变量会有成千上万个不同的值。探索数据的一个基本步骤就是为每个特征(变量)得到一个“典型值”:对大多数数据所处的位置进行一个估计(也就是数据的集中趋势)。

本节关键术语

均值

 所有数据值的和除以值的数量。

 同义词

   平均数

加权均值

 乘以权重后所有数据值的和再除以权重的总和。

 同义词

   加权平均数

中位数

 使得一半数据比它大,另一半数据比它小的值。

 同义词

   第 50 个百分位数

百分位数

 使得一定百分比的数据比它小的值。

 同义词

   分位数

加权中位数

 在排序数据中,使得它前面和后面的数据的权重之和是总权重一半的那个值。

切尾均值

 去掉了一定数量的极端值之后,所有值的平均数。

 同义词

   截尾均值

健壮

 对极值不敏感。

 同义词

   耐抗性

离群值

 与多数数据截然不同的数据值。

 同义词

   极端值

乍一看,数据的摘要统计非常简单:算出数据的均值即可。实际上,虽然均值容易计算也确实可用,但并不总是中心值最好的量度。正因如此,统计学家们研究并推广了几种均值的替代估计。

 度量和估计

统计学家经常使用估计这个术语来表示根据当前数据计算出的某个值,以体现出从数据中得出的结果与理论上的真实结果或事物的真实状态之间的区别。而数据科学家和商业分析师更喜欢将这个值称为一个度量。这种差别反映出了统计学与数据科学所用方法的不同,因为统计学的核心任务是解释不确定性,而数据科学关注的则是企业或组织的具体目标。因此,统计学家使用的是估计,数据科学家则使用度量。