Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 用最少的条目过滤出RDD中的元素_Scala_Apache Spark_Rdd_Apache Spark Mllib - Fatal编程技术网

Scala 用最少的条目过滤出RDD中的元素

Scala 用最少的条目过滤出RDD中的元素,scala,apache-spark,rdd,apache-spark-mllib,Scala,Apache Spark,Rdd,Apache Spark Mllib,我有一个产品的RDD(productID,name)和另一个使用MLLib评级对象(ratingTimestamp,Rating(userID,productID,Rating))的人们对这些产品的评级的RDD 不过,在我处理这些问题之前,我想过滤掉并删除那些评论不多的产品,比如说500条左右,因为有很多产品只有1条5星级评论或其他什么 我正在使用此代码创建一个产品ID图,该图按评级数排序: val mostRated = ratings.map(_._2.product)

我有一个产品的RDD(productID,name)和另一个使用MLLib评级对象(ratingTimestamp,Rating(userID,productID,Rating))的人们对这些产品的评级的RDD

不过,在我处理这些问题之前,我想过滤掉并删除那些评论不多的产品,比如说500条左右,因为有很多产品只有1条5星级评论或其他什么

我正在使用此代码创建一个产品ID图,该图按评级数排序:

 val mostRated = ratings.map(_._2.product)
                        .countByValue
                        .toSeq
                        .sortBy(- _._2)
                        .map(_._1)

但这给了我每一项,我需要过滤掉任何不够的东西。我在上面尝试了
filter()
方法,但不知道该怎么做才能得到我想要的结果。

解决了这个问题,只需在排序之前添加这个过滤器:

.filter(x=>x._2>1000)
(例如,对于1000次或更多的评论)