公告: 极客数据面向大数据行业从业人员及爱好者分享行业最新资讯以及各种工具使用教程,行业资深大佬可移步至行业专业交流社区 “穹顶喵”!

离群值分析:定义、技术、方法

3662

离群值分析是一个数据分析过程,涉及识别数据集中的异常观测处理。如果你想从分析中得出有意义的结论,那么这一步是必须的。值得庆幸的是,离群值分析非常简单。在本文中,我们将查看分析师需要了解的关于离群值分析的相关内容:
首先要明确的是,离群值分析的重要性。与其他分析过程不同,离群值分析只有一个好处:它提高了受分析的数据集的质量,经过处理后的外向数据点很容易被发现。有了更高质量的数据集,分析师可以更轻松地得出更准确的结论。
一、离群值分析技术
排序
对于业余分析师来说,排序是迄今为止最简单的离群值分析技术。前提很简单:将数据集加载到任何类型的数据操作工具(如电子表格)中,并按其大小对值进行排序。然后,查看各种数据点的值范围。如果任何数据点明显高于或低于数据集中的其他数据点,则它们可能被视为离群值。
为了有效地使用排序,了解数据集内预期值的范围是很有帮助的。因此,非常熟悉某些类型的数据的人将更善于使用此方法识别异常值。
让我们看看在实践中排序的例子。想想科学家正在测量一百种不同巧克力棒中的卡路里。进入分析阶段后,应确保数据集中不存在异常值。通过从最高值进行排序,他们将能够识别异常高的观测结果。知道巧克力棒的平均热量为几百卡路里,观察几千卡路里显然会突出为离群值。

图形
离群值分析的同样宽容的工具是图形。前提再次简单明了:绘制图表上的所有数据点,并查看哪些点从其余点中脱颖而出。使用图形方法而不是排序方法的优点是,它可视化数据点的大小,从而更容易发现异常值。
如果所涉及的数据点非常高或非常低,图形也可以特别有效。由于可能难以掌握极端数量级值的差异,因此图形可以绘制到适当的刻度特别有帮助。
然而,图形学如此有用的另一个原因是它允许分析人员比较两个变量之间的关系。例如,考虑一年中不同时间记录的温度图。以这种方式发现离群值(高于或低于图表趋势)比对温度进行排序要容易得多,因为这不会考虑一年中的时间。
Z 分数
一种可用于识别离群值的更统计技术是 Z分数。Z 分数以标准偏差来衡量数据点与平均值的距离。通过计算每个数据点的 Z 分数,很容易看出哪些数据点放置远低于平均值。不幸的是,就像排序一样,这没有考虑到第二个变量的影响。
其他测试
除了排序、图形和 Z 分数之外,还有一大堆统计测试可用于识别数据集中的离群值。对于大多数意图和目的,排序和图形对于离群值分析来说已经足够了。Z-分数或其他统计测试可能仅用于学术或高风险目的,而真正的统计方面更为重要。
二、如何进行离群值分析
进行离群值分析再简单不过了。在深入应用上述技术之前,分析师需要做的只有一件事:使数据正常化。规范化是确保数据集中的所有数据点以相同方式格式化的过程,如果没有规范化,则可能无法对数据集进行排序、图表或其他评估。其中,我们需要对数据集中的缺失值进行处理。处理缺失值方法如下:
1、删除存在缺失值的个体或变量
当缺失值为个体少数,并且是在总体中的一个随机子样本中,可以剔除。
当缺失值集中在少数变量,并且变量不是分析的主要变量,可以剔除。
如果缺失值集中在少数个体,或散布在多个变量多个个体,删除就会影响组间均衡,则用其他方式处理。
2、估计缺失值:即利用辅助信息为每个缺失值寻找替代值。
常用的估计方法包括:
先验法(prior knowledge):适用于样本足够大,缺失数据少,并且研究者在该领域有丰富的经验能够确保对缺失值的估计接近该变量的中位数水平或能代表特定病例的观察值水平时。
替代均数法(mean substitution):以变量中未缺失观察值的均数估计该变量中存在的缺失值。当缺乏其他信息的时候,是常用方法。
回归估计法(regression):以存在的缺失值的变量为应变量,以其他全部或部分变量为自变量,回归计算该值。适用于有适合的自变量完整数据存在时。
期望值最大法(expectation maximization ,EM):进行最大似然估计的一种有效方法,分两步。第一步求出缺失数据的期望值,第二步在假定的缺失值被替代的基础上做出最大似然估计。适用于大样本资料。
多重填补法(multiple imputation,MI):根据缺失值的先验分布,估计缺失值,此法计算复杂,需要统计软件实现。但是该法对缺失方式无特殊要求。
3、建立哑变量
可按照某变量值是否缺失建立哑变量,然后统计分析,保证分析资料的完整性
4、需要注意的问题
4.1 对缺失值的处理首先考察资料缺失方式,明确是否为随机缺失,才能进一步处理。
4.2 对于缺失值的估计方法,可按照方法的适用性进行选择。
4.3 如果对缺失值进行了估计,建议对填补的数据集和删除缺失值的数据集都进行分析,然后比较,如果发现差异较大,应查找原因,考虑哪一个更可信,或同时报道两个结果。