Apache spark 保持rdd的位置5到15
假设我有这个数据帧:Apache spark 保持rdd的位置5到15,apache-spark,filter,Apache Spark,Filter,假设我有这个数据帧: myDataFrame.map(r => ( ( r.getAs[String]("col1"), r.getAs[String]("col2"), r.getAs[String]("col3"), r.getAs[String]("col4") ), r.getAs[Int]("col5"))) .groupByKey() .map(r => (r._1, r._2.sum)) .so
myDataFrame.map(r =>
(
( r.getAs[String]("col1"),
r.getAs[String]("col2"),
r.getAs[String]("col3"),
r.getAs[String]("col4")
),
r.getAs[Int]("col5")))
.groupByKey()
.map(r => (r._1, r._2.sum))
.sortBy(r => r._2)
.map(r => {
Chart(r._1._1, r._1._2, r._1._3, r._1._4)
})
.toDF("col1", "col2", "col3", "col4")
这将返回1000个数据帧
我只想保留并返回从索引10到100的数据帧。
可能吗
谢谢数据集实际上并没有索引。如何定义多个分区上的索引?另外,数据可以在任何时候被洗牌并更改索引。如果只想获取有限数量的元素,请使用take:Int方法。如果行是唯一的,则使用“除”进行限制不能保证:
val df = List(1, 2, 3, 4, 5).toDF("sortable")
df.limit(4).except(df.limit(2))
我的用意是要让过滤之王成为那种类型的过滤之王。好的,但是范围呢?我的意思是曾经只在10到100之间排序过我不认为有这样的事情。