如何使用spark根据特定列删除dataframe中的重复记录?

2026-06-10 02:570阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计240个文字,预计阅读时间需要1分钟。

如何使用spark根据特定列删除dataframe中的重复记录?

创建一个新的DataFrame:`val val_conf=new SparkConf().setAppName(TTyb).setMaster(local) val sc=new SparkContext(conf) val spark=new SQLContext(sc) val dataFrame=spark.createDataFrame(Seq((1, 1, 2, 5)))

新建一个 ​​dataframe​​ :

val conf = new SparkConf().setAppName("TTyb").setMaster("local")
val sc = new SparkContext(conf)
val spark = new SQLContext(sc)
val dataFrame = spark.createDataFrame(Seq(
(1, 1, "2", "5"),
(2, 2, "3", "6"),
(2, 2, "35", "68"),
(2, 2, "34", "67"),
(2, 2, "38", "68"),
(3, 2, "36", "69"),
(1, 3, "4", null)
)).toDF("id", "label", "col1", "col2")

想根据 ​​id​​​ 和 ​​lable​​​ 来删除重复行,即删掉 ​​id=2​​​ 且 ​​lable=2​​​ 的重复行。

阅读全文

本文共计240个文字,预计阅读时间需要1分钟。

如何使用spark根据特定列删除dataframe中的重复记录?

创建一个新的DataFrame:`val val_conf=new SparkConf().setAppName(TTyb).setMaster(local) val sc=new SparkContext(conf) val spark=new SQLContext(sc) val dataFrame=spark.createDataFrame(Seq((1, 1, 2, 5)))

新建一个 ​​dataframe​​ :

val conf = new SparkConf().setAppName("TTyb").setMaster("local")
val sc = new SparkContext(conf)
val spark = new SQLContext(sc)
val dataFrame = spark.createDataFrame(Seq(
(1, 1, "2", "5"),
(2, 2, "3", "6"),
(2, 2, "35", "68"),
(2, 2, "34", "67"),
(2, 2, "38", "68"),
(3, 2, "36", "69"),
(1, 3, "4", null)
)).toDF("id", "label", "col1", "col2")

想根据 ​​id​​​ 和 ​​lable​​​ 来删除重复行,即删掉 ​​id=2​​​ 且 ​​lable=2​​​ 的重复行。

阅读全文