如何应对数据维度激增?深度解析机器学习五大经典特征筛选策略?
- 内容介绍
- 文章标签
- 相关推荐
本文共计8128个文字,预计阅读时间需要33分钟。
在众多机器学习相关书籍中,关于特征选择的论述较为稀缺。特征选择是解决机器学习问题的关键子模块,但通常不会单独成章讨论。然而,特征选择是一个至关重要的数据预处理步骤。
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。
但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能:
- 减少特征数量、降维,使模型泛化能力更强,减少过拟合
- 增强对特征和特征值之间的理解
好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。内容较长,建议收藏,喜欢点赞、关注。
文末提供技术交流群
本文目录如下:
一、去掉取值变化小的特征
英文:Removing features with low variance
这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。
本文共计8128个文字,预计阅读时间需要33分钟。
在众多机器学习相关书籍中,关于特征选择的论述较为稀缺。特征选择是解决机器学习问题的关键子模块,但通常不会单独成章讨论。然而,特征选择是一个至关重要的数据预处理步骤。
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。
但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能:
- 减少特征数量、降维,使模型泛化能力更强,减少过拟合
- 增强对特征和特征值之间的理解
好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。内容较长,建议收藏,喜欢点赞、关注。
文末提供技术交流群
本文目录如下:
一、去掉取值变化小的特征
英文:Removing features with low variance
这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。

