Apache spark 保持rdd的位置5到15_Apache Spark_Filter

Apache spark 保持rdd的位置5到15

apache-spark filter

Apache spark 保持rdd的位置5到15,apache-spark,filter,Apache Spark,Filter,假设我有这个数据帧： myDataFrame.map(r => ( ( r.getAs[String]("col1"), r.getAs[String]("col2"), r.getAs[String]("col3"), r.getAs[String]("col4") ), r.getAs[Int]("col5"))) .groupByKey() .map(r => (r._1, r._2.sum)) .so

假设我有这个数据帧：

myDataFrame.map(r =>
  (
    ( r.getAs[String]("col1"),
      r.getAs[String]("col2"),
      r.getAs[String]("col3"),
      r.getAs[String]("col4")
    ),
    r.getAs[Int]("col5")))
  .groupByKey()
  .map(r => (r._1, r._2.sum))
  .sortBy(r => r._2)
  .map(r => {
    Chart(r._1._1, r._1._2, r._1._3, r._1._4)
  })
  .toDF("col1", "col2", "col3", "col4")

这将返回1000个数据帧我只想保留并返回从索引10到100的数据帧。可能吗

谢谢

数据集实际上并没有索引。如何定义多个分区上的索引？另外，数据可以在任何时候被洗牌并更改索引。如果只想获取有限数量的元素，请使用take:Int方法。

如果行是唯一的，则使用“除”进行限制不能保证：

val df = List(1, 2, 3, 4, 5).toDF("sortable")
df.limit(4).except(df.limit(2))

我的用意是要让过滤之王成为那种类型的过滤之王。好的，但是范围呢？我的意思是曾经只在10到100之间排序过我不认为有这样的事情。