Spark中sc.textFiles()和sc.wholeTextFiles()有何本质区别？

2026-04-02 14:310阅读0评论SEO教程

本文共计535个文字，预计阅读时间需要3分钟。

由于业务需求，需要将大量文件按照目录分类的方式存储在HDFS上。此时，从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()方法。众所周知，sc代表SparkContext，它是Spark程序的核心。

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()，众所周知，sc.tex

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用 sparkcontext.wholeTextFiles()，

众所周知，sc.textFiles(path) 能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式：

>>> textFile = sc.textFile(path)>>> textFile.collect()[u‘Hello world!‘]文件的每一行相当于列表的一个元素，因此可以在每个partition中用for i in data的形式遍历处理数据。

本文共计535个文字，预计阅读时间需要3分钟。

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()，众所周知，sc.tex

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用 sparkcontext.wholeTextFiles()，

众所周知，sc.textFiles(path) 能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式：