Spark

共收录篇相关文章

本文共计1034个文字，预计阅读时间需要5分钟。原文：本文将介绍如何在Spark scala程序中调用Python脚本，Spark java程序调用Python的过程大体相同：1.PythonRunner 对于运行在JVM上的程序（即Sca

2026-05-172阅读0评论

本文共计20718个文字，预计阅读时间需要83分钟。Spark Core 1.1 概述Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.1 Hadoop vs Spark面对Hadoop的处理流程，Spark做出了以下

2026-05-0510阅读0评论

本文共计20803个文字，预计阅读时间需要84分钟。Spark Core 1.1 概述Spark 是一种基于内存的快速、通用、可扩展的大数据处理引擎。1.1 Hadoop vs Spark在处理流程上，Hadoop 与 Spark 有明显差

2026-05-0510阅读0评论

本文共计20729个文字，预计阅读时间需要83分钟。Spark Core 1.1 概述Spark 是一种基于内存的快速、通用、可扩展的大数据处理引擎。1.1 Hadoop vs Spark面对流程：Hadoop 的处理流程，下面对应 Spa

2026-05-0510阅读0评论

本文共计20725个文字，预计阅读时间需要83分钟。Spark Core 1.1 概述Spark 是一种基于内存的快速、通用、可扩展的大数据处理引擎。1.1 Hadoop vs Spark面对流程应对Hadoop 的处理流程：Hadoop

2026-05-0510阅读0评论

本文共计3094个文字，预计阅读时间需要13分钟。在Spark job中，使用Spark SQL通过以下方式读取Elasticsearch数据时遇到了一些困难，具体如下总结：环境说明：- Spark job编写语言：Scala- Scala

2026-05-0510阅读0评论

本文共计950个文字，预计阅读时间需要4分钟。使用Apache Spark MLlib进行Java开发1.概述本文将介绍如何使用Apache Spark MLlib进行Java开发。MLlib是Apache Spark的机器学习库，提供了一

2026-04-198阅读0评论

本文共计502个文字，预计阅读时间需要3分钟。一. Spark与Hadoop、MapReduceSpark与Hadoop、MapReduce是大数据处理领域的三大技术。它们在数据处理架构和执行机制上有所不同。二. 数据存储结构：磁盘HDFS

2026-04-199阅读0评论

本文共计169个文字，预计阅读时间需要1分钟。javaSparkConnectionEs.javaimport data.spark.batch.cardbin.util.CardBinFields;import org.apache.sp

2026-04-169阅读0评论

本文共计2476个文字，预计阅读时间需要10分钟。前言：由于工作需要，需要分析最近几天Nginx日志数据。之前也有过类似需求，但当时数据量不大，只有几百到几千条。因为数据都存储在Hive中，当时的做法是将数据提取出来。具体步骤如下：1. 使

2026-04-118阅读0评论

本文共计2392个文字，预计阅读时间需要10分钟。前言：由于工作需要，要分析几GB的Nginx日志数据。之前也遇到过类似的需求，但当时数据量不大，只有几百GB。那时的做法是将数据加载到Hive中进行处理。当时的做法是：将数据加载到Hive中

2026-04-118阅读0评论

本文共计115个文字，预计阅读时间需要1分钟。以Spark集群方式运行standalone的运行命令：binspark-shell --master spark:hadoop1:7077 --executor-memory 3g以Spark

2026-04-039阅读0评论

本文共计535个文字，预计阅读时间需要3分钟。由于业务需求，需要将大量文件按照目录分类的方式存储在HDFS上。此时，从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()方法。众所周知，sc代表SparkC

2026-04-029阅读0评论

本文共计3010个文字，预计阅读时间需要13分钟。Spark基础：基石RDD，Spark的核心是RDD（弹性分布式数据集），一种通用的数据抽象，封装了数据的分布式存储和计算。RDD的内部机制包括封装和转换操作。转载：www.cnblogs.

2026-04-0210阅读0评论

本文共计2395个文字，预计阅读时间需要10分钟。文章目录 + 读取数据 + 数据源 + 数据格式 + 保存 + JSON + CSV + SequenceFile + 对象文件 + 非文件系统数据源 + protocol buffer文章

2026-04-0212阅读0评论