如何手把手学习4种关键数据清洗技巧?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3548个文字,预计阅读时间需要15分钟。
原文:
修改后:本文主要介绍数据清洗的相关内容,涵盖缺失值清洗、格式内容清洗、逻辑错误清洗及维度相关性检查等四个方面。
本文介绍数据清洗的相关内容,主要涉及缺失值清洗、格式内容清洗、逻辑错误清洗和维度相关性检查四个方面。
01 缺失值清洗
相信大家都听说过这样一句话:废料进、废品出(Garbage in, Garbage out)。如果模型基于错误的、无意义的数据建立,那么这个模型也会出错。因此,如果源数据带有缺失值(NaN),就需要在数据预处理中进行清洗。缺失值是最常见的数据问题,有很多处理缺失值的方法,一般均按照以下四个步骤进行。
1. 确定缺失值范围
具体代码如下:
# 检查数据缺失情况def check_missing_data(df):
return df.isnull().sum().sort_values(ascending = False)
check_missing_data(rawdata)
Income 1
Age 1
Online Shopper 0
Region 0
dtype: int64
对每个字段都计算其缺失值比例后,按照缺失比例和字段重要性,分别制定相应的解决策略,可用图1表示。
图3-6看似明确了不同情况的应对策略,但在实际应用中对特征的重要性判断非常复杂,通常需要到模型中去判断。对数据库进行研究并对所需解决的问题进行分析,可确定哪些特征属于重要特征,哪些特征可以省去或者删掉。
本文共计3548个文字,预计阅读时间需要15分钟。
原文:
修改后:本文主要介绍数据清洗的相关内容,涵盖缺失值清洗、格式内容清洗、逻辑错误清洗及维度相关性检查等四个方面。
本文介绍数据清洗的相关内容,主要涉及缺失值清洗、格式内容清洗、逻辑错误清洗和维度相关性检查四个方面。
01 缺失值清洗
相信大家都听说过这样一句话:废料进、废品出(Garbage in, Garbage out)。如果模型基于错误的、无意义的数据建立,那么这个模型也会出错。因此,如果源数据带有缺失值(NaN),就需要在数据预处理中进行清洗。缺失值是最常见的数据问题,有很多处理缺失值的方法,一般均按照以下四个步骤进行。
1. 确定缺失值范围
具体代码如下:
# 检查数据缺失情况def check_missing_data(df):
return df.isnull().sum().sort_values(ascending = False)
check_missing_data(rawdata)
Income 1
Age 1
Online Shopper 0
Region 0
dtype: int64
对每个字段都计算其缺失值比例后,按照缺失比例和字段重要性,分别制定相应的解决策略,可用图1表示。
图3-6看似明确了不同情况的应对策略,但在实际应用中对特征的重要性判断非常复杂,通常需要到模型中去判断。对数据库进行研究并对所需解决的问题进行分析,可确定哪些特征属于重要特征,哪些特征可以省去或者删掉。

