Python中LabelEncoder与OneHotEncoder在类别数据数字化处理上的主要差异是什么?
- 内容介绍
- 文章标签
- 相关推荐
本文共计695个文字,预计阅读时间需要3分钟。
%E7%9B%AE%E5%BD%95%E7%BC%96%E7%A0%81%E3%80%81LabelEncoder%E5%92%8COneHotEncoder%E3%80%8C%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F%E6%95%B0%E6%8D%AE%E9%9B%86%E4%B8%AD%E7%9A%84%E7%B1%BB%E5%88%AB%E6%95%B0%E6%8D%AE%EF%BC%8CLabelEncoder%E5%92%8COneHotEncoder%E7%9A%84%E5%8C%BA%E5%88%AB%EF%BC%8C%E5%85%B7%E4%BD%93%E4%BB%A3%E7%A0%81%EF%BC%8CLabelEncoder%E5%92%8COneHotEncoder%E3%80%8C%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86%E8%BF%87%E7%A8%8B%E4%B8%AD%EF%BC%8C%E6%88%91%E4%BB%AC%E6%9C%89%E6%97%B6%E9%9C%80%E8%A6%81%E5%AF%B9%E4%B8%8D%E8%BF%9E%E7%BB%AD%E7%9A%84%E6%95%B0%E5%AD%97%E6%88%96%E2%80%9D%EF%BC%8C%E4%BD%BF%E7%94%A8%E5%9B%BE%E8%A1%A8%E3%80%82
目录
- LabelEncoder 和 OneHotEncoder 是什么
- 数据集中的类别数据
- LabelEncoder 和 OneHotEncoder 的区别
- 具体代码
LabelEncoder 和 OneHotEncoder 是什么
- 在数据处理过程中,我们有时需要对不连续的数字或者文本进行数字化处理。
- 在使用 Python 进行数据处理时,用 encoder 来转化 dummy variable(虚拟数据)非常简便,encoder 可以将数据集中的文本转化成0或1的数值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的两个功能,可以实现上述的转化过程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder
数据集中的类别数据
在使用回归模型和机器学习模型时,所有的考察数据都是数值更容易得到好的结果。
因为回归和机器学习都是基于数学函数方法的,所以当我们要分析的数据集中出现了类别数据(categorical data),此时的数据是不理想的,因为我们不能用数学的方法处理它们。
例如,在处理男和女两个性别数据时,我们用0和1将其代替,再进行分析。
由于这种情况的出现,我们需要可以将文字数字化的现成方法。
LabelEncoder 和 OneHotEncoder 的区别
具体代码
import pandas as pd from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.cross_validation import train_test_split # 读取数据 data_df = pd.read_csv('archive.ics.uci.edu/ml/machine-learning-databases/' 'breast-cancer-wisconsin/wdbc.data', header=None) # 前面的数据是特征,最后一列是标签label x, y = data_df.values[:, :-1], data_df.values[:, -1] # 先实例化一个对象 encoder_x = LabelEncoder() # 对标签进行类别数据数字化 y = encoder_x.fit_transform( y )
以上就是python 数据数字化的方法LabelEncoder VS OneHotEncoder区别的详细内容,更多关于LabelEncoder VS OneHotEncoder的资料请关注自由互联其它相关文章!
本文共计695个文字,预计阅读时间需要3分钟。
%E7%9B%AE%E5%BD%95%E7%BC%96%E7%A0%81%E3%80%81LabelEncoder%E5%92%8COneHotEncoder%E3%80%8C%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F%E6%95%B0%E6%8D%AE%E9%9B%86%E4%B8%AD%E7%9A%84%E7%B1%BB%E5%88%AB%E6%95%B0%E6%8D%AE%EF%BC%8CLabelEncoder%E5%92%8COneHotEncoder%E7%9A%84%E5%8C%BA%E5%88%AB%EF%BC%8C%E5%85%B7%E4%BD%93%E4%BB%A3%E7%A0%81%EF%BC%8CLabelEncoder%E5%92%8COneHotEncoder%E3%80%8C%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86%E8%BF%87%E7%A8%8B%E4%B8%AD%EF%BC%8C%E6%88%91%E4%BB%AC%E6%9C%89%E6%97%B6%E9%9C%80%E8%A6%81%E5%AF%B9%E4%B8%8D%E8%BF%9E%E7%BB%AD%E7%9A%84%E6%95%B0%E5%AD%97%E6%88%96%E2%80%9D%EF%BC%8C%E4%BD%BF%E7%94%A8%E5%9B%BE%E8%A1%A8%E3%80%82
目录
- LabelEncoder 和 OneHotEncoder 是什么
- 数据集中的类别数据
- LabelEncoder 和 OneHotEncoder 的区别
- 具体代码
LabelEncoder 和 OneHotEncoder 是什么
- 在数据处理过程中,我们有时需要对不连续的数字或者文本进行数字化处理。
- 在使用 Python 进行数据处理时,用 encoder 来转化 dummy variable(虚拟数据)非常简便,encoder 可以将数据集中的文本转化成0或1的数值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的两个功能,可以实现上述的转化过程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder
数据集中的类别数据
在使用回归模型和机器学习模型时,所有的考察数据都是数值更容易得到好的结果。
因为回归和机器学习都是基于数学函数方法的,所以当我们要分析的数据集中出现了类别数据(categorical data),此时的数据是不理想的,因为我们不能用数学的方法处理它们。
例如,在处理男和女两个性别数据时,我们用0和1将其代替,再进行分析。
由于这种情况的出现,我们需要可以将文字数字化的现成方法。
LabelEncoder 和 OneHotEncoder 的区别
具体代码
import pandas as pd from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.cross_validation import train_test_split # 读取数据 data_df = pd.read_csv('archive.ics.uci.edu/ml/machine-learning-databases/' 'breast-cancer-wisconsin/wdbc.data', header=None) # 前面的数据是特征,最后一列是标签label x, y = data_df.values[:, :-1], data_df.values[:, -1] # 先实例化一个对象 encoder_x = LabelEncoder() # 对标签进行类别数据数字化 y = encoder_x.fit_transform( y )
以上就是python 数据数字化的方法LabelEncoder VS OneHotEncoder区别的详细内容,更多关于LabelEncoder VS OneHotEncoder的资料请关注自由互联其它相关文章!

