如何用Python高效读取HDFS上的Parquet文件?
- 内容介绍
- 文章标签
- 相关推荐
本文共计690个文字,预计阅读时间需要3分钟。
在Python处理大数据和机器学习过程中,首先需要读取HDFS上的数据。对于常用格式数据,一般比较容易读取,如Parquet格式具有特殊特性。以下是从HDFS上使用Python获取Parquet格式数据的常用方法:
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以):
1、安装anaconda环境。
2、安装hdfs3。
conda install hdfs3
3、安装fastparquet。
conda install fastparquet
4、安装python-snappy。
本文共计690个文字,预计阅读时间需要3分钟。
在Python处理大数据和机器学习过程中,首先需要读取HDFS上的数据。对于常用格式数据,一般比较容易读取,如Parquet格式具有特殊特性。以下是从HDFS上使用Python获取Parquet格式数据的常用方法:
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以):
1、安装anaconda环境。
2、安装hdfs3。
conda install hdfs3
3、安装fastparquet。
conda install fastparquet
4、安装python-snappy。

