Apache spark 如何使用Spark/RDD上的Java在文本文件中逐段查找词频

Apache spark 如何使用Spark/RDD上的Java在文本文件中逐段查找词频,apache-spark,rdd,word-frequency,Apache Spark,Rdd,Word Frequency,我对Spark RDD比较陌生,我想在Spark/RDD上使用Java来查找文本文件中的词频,但要逐段查找 如果是在整个文本文件中,那么使用split、flatMap和reduceByKey似乎很简单。这里我需要的是文本文件中每个段落(由换行符分隔)中的词频 如果你成功的话,请分享你的想法。 谢谢这取决于段落是否指换行符,您可以使用“拆分”在换行符处拆分,然后计数?我试图避免这个问题,但您尝试了什么?这是一项既可以手动处理也可以使用火花变压器处理的琐碎任务。它并不像一开始看起来那么琐碎,我自己也

我对Spark RDD比较陌生,我想在Spark/RDD上使用Java来查找文本文件中的词频,但要逐段查找

如果是在整个文本文件中,那么使用split、flatMap和reduceByKey似乎很简单。这里我需要的是文本文件中每个段落(由换行符分隔)中的词频

如果你成功的话,请分享你的想法。
谢谢

这取决于段落是否指换行符,您可以使用“拆分”在换行符处拆分,然后计数?我试图避免这个问题,但您尝试了什么?这是一项既可以手动处理也可以使用火花变压器处理的琐碎任务。它并不像一开始看起来那么琐碎,我自己也认为它很琐碎。如果你们中有人使用apachespark和javardd成功了,请告诉我(我可以使用splitoversplit而不使用Spark/RDD,这很好)。请至少,告诉我如果RDD为[Array[Array[String]],如何逐段应用flatMap,或者给出创建RDD RDD的想法(可能吗?)