Scala 如何在Spark中对RDD进行排序和限制？_Scala_Apache Spark_Rdd

Scala 如何在Spark中对RDD进行排序和限制？

scala apache-spark

Scala 如何在Spark中对RDD进行排序和限制？,scala,apache-spark,rdd,Scala,Apache Spark,Rdd,我有Foo类的RDD:类Foo（名称：String，createDate:Date）。我想要另一个RDD，它的旧版本为10%Foo。我的第一个想法是按createDate排序，并按0.1*计数进行限制，但没有限制函数你有什么想法吗？假设Foo是这样一个案例类： import java.sql.Date case class Foo(name: String, createDate: java.sql.Date) 使用普通RDD： import org.apache.spark.rdd.R

我有Foo类的RDD:

类Foo（名称：String，createDate:Date）

。我想要另一个RDD，它的旧版本为10%

Foo

。我的第一个想法是按

createDate

排序，并按0.1*计数进行限制，但没有限制函数

你有什么想法吗？

假设

Foo

是这样一个案例类：

import java.sql.Date
case class Foo(name: String, createDate: java.sql.Date)

使用普通RDD：

import org.apache.spark.rdd.RDD
import scala.math.Ordering

val rdd: RDD[Foo] = sc
  .parallelize(Seq(
    ("a", "2015-01-03"), ("b", "2014-11-04"), ("a", "2016-08-10"),
    ("a", "2013-11-11"), ("a", "2015-06-19"), ("a", "2009-11-23")))
  .toDF("name", "createDate")
  .withColumn("createDate", $"createDate".cast("date"))
  .as[Foo].rdd

rdd.cache()
val  n = scala.math.ceil(0.1 * rdd.count).toInt

数据放入驱动程序内存：

你们想要的分数相对较小

rdd.takeOrdered(n)(Ordering.by[Foo, Long](_.createDate.getTime))
// Array[Foo] = Array(Foo(a,2009-11-23))

您想要的分数相对较大：

rdd.sortBy(_.createDate.getTime).take(n)

否则

rdd
  .sortBy(_.createDate.getTime)
  .zipWithIndex
  .filter{case (_, idx) => idx < n}
  .keys

.zipWithIndex

zipWithUniqueId

limit

import org.apache.spark.sql.Row

val topN = rdd.toDF.orderBy($"createDate").limit(n)
topN.show

// +----+----------+
// |name|createDate|
// +----+----------+
// |   a|2009-11-23|
// +----+----------+


// Optionally recreate RDD[Foo]
topN.map{case Row(name: String, date: Date) => Foo(name, date)}