Python里如何识别数据集中的三种异常值检测策略?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1016个文字,预计阅读时间需要5分钟。
1. 引言:在数据处理、机器学习等领域,我们经常需要对各种类型的数据进行加工处理。本文简要介绍三种简单的方法来检测数据集中的异常值。
2.标准化方法:通过将数据标准化到同一尺度,可以更容易地识别出异常值。例如,使用Z-score或IQR(四分位数间距)方法。
1. 引言
在数据处理、机器学习等领域,我们经常需要对各式各样的数据进行处理,本文重点介绍三种非常简单的方法来检测数据集中的异常值。 闲话少说,我们直接开始吧!
2. 举个栗子
为了方便介绍,这里给出我们的测试数据集,如下:
data = pd.DataFrame([[87, 82, 85],
[81, 89, 75],
[86, 87, 69],
[91, 79, 86],
[88, 89, 82],
[0, 0, 0], # this guy missed the exam
[100, 100, 100],
], columns=["math", "science", "english"])
图示如下:
假设这里我们有一堆学生的三门科目的考试成绩——英语、数学和科学。这些学生通常表现很好,但其中一人错过了所有考试,三门科目都得了0分。在我们的分析中包括这个家伙可能会把事情搞砸,所以我们需要将他视为异常。
本文共计1016个文字,预计阅读时间需要5分钟。
1. 引言:在数据处理、机器学习等领域,我们经常需要对各种类型的数据进行加工处理。本文简要介绍三种简单的方法来检测数据集中的异常值。
2.标准化方法:通过将数据标准化到同一尺度,可以更容易地识别出异常值。例如,使用Z-score或IQR(四分位数间距)方法。
1. 引言
在数据处理、机器学习等领域,我们经常需要对各式各样的数据进行处理,本文重点介绍三种非常简单的方法来检测数据集中的异常值。 闲话少说,我们直接开始吧!
2. 举个栗子
为了方便介绍,这里给出我们的测试数据集,如下:
data = pd.DataFrame([[87, 82, 85],
[81, 89, 75],
[86, 87, 69],
[91, 79, 86],
[88, 89, 82],
[0, 0, 0], # this guy missed the exam
[100, 100, 100],
], columns=["math", "science", "english"])
图示如下:
假设这里我们有一堆学生的三门科目的考试成绩——英语、数学和科学。这些学生通常表现很好,但其中一人错过了所有考试,三门科目都得了0分。在我们的分析中包括这个家伙可能会把事情搞砸,所以我们需要将他视为异常。

