如何高效使用Python进行数据清洗?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3792个文字,预计阅读时间需要16分钟。
目录 + 导入 + 如果有缺失数据,会怎样处理 + 如果包含属性数据,会如何处理 + 你发现什么潜在问题了吗 + 训练集与测试集的划分 + 特征缩放 + 对于连续变量而言,是否需要进行缩放 + 任意预测规则确立,不预测
目录
- 导入
- 如果有缺失数据会怎么样
- 如果包含属性数据,会怎么样呢
- 你发现什么潜在问题了吗
- 训练集与测试集的划分
- 特征缩放
- 对于哑变量而言是否需要进行缩放
凡事预则立,不预则废,训练机器学习模型也是如此。数据清洗和预处理是模型训练之前的必要过程,否则模型可能就废了。本文是一个初学者指南,将带你领略如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。
人们通常认为,数据预处理是一个非常枯燥的部分。但它就是做好准备和完全没有准备之间的差别,也是表现专业和业余之间的差别。就像为度假做好事先准备一样,如果你提前将行程细节确定好,就能够预防旅途变成一场噩梦。
本文将带你领略,如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。
导入
让我们从导入数据预处理所需要的库开始吧。库是非常棒的使用工具:将输入传递给库,它则完成相应的工作。你可以接触到非常多的库,但在 Python 中,有三个是最基础的库。任何时候,你都很可能最终还是使用到它们。这三个在使用 Python 时最流行的库就是 Numpy、Matplotlib 和 Pandas。Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的,因此就会使用到它。
本文共计3792个文字,预计阅读时间需要16分钟。
目录 + 导入 + 如果有缺失数据,会怎样处理 + 如果包含属性数据,会如何处理 + 你发现什么潜在问题了吗 + 训练集与测试集的划分 + 特征缩放 + 对于连续变量而言,是否需要进行缩放 + 任意预测规则确立,不预测
目录
- 导入
- 如果有缺失数据会怎么样
- 如果包含属性数据,会怎么样呢
- 你发现什么潜在问题了吗
- 训练集与测试集的划分
- 特征缩放
- 对于哑变量而言是否需要进行缩放
凡事预则立,不预则废,训练机器学习模型也是如此。数据清洗和预处理是模型训练之前的必要过程,否则模型可能就废了。本文是一个初学者指南,将带你领略如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。
人们通常认为,数据预处理是一个非常枯燥的部分。但它就是做好准备和完全没有准备之间的差别,也是表现专业和业余之间的差别。就像为度假做好事先准备一样,如果你提前将行程细节确定好,就能够预防旅途变成一场噩梦。
本文将带你领略,如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。
导入
让我们从导入数据预处理所需要的库开始吧。库是非常棒的使用工具:将输入传递给库,它则完成相应的工作。你可以接触到非常多的库,但在 Python 中,有三个是最基础的库。任何时候,你都很可能最终还是使用到它们。这三个在使用 Python 时最流行的库就是 Numpy、Matplotlib 和 Pandas。Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的,因此就会使用到它。

