Apache spark 如何使用Spark/RDD上的Java在文本文件中逐段查找词频_Apache Spark_Rdd_Word Frequency

Apache spark 如何使用Spark/RDD上的Java在文本文件中逐段查找词频

apache-spark

Apache spark 如何使用Spark/RDD上的Java在文本文件中逐段查找词频,apache-spark,rdd,word-frequency,Apache Spark,Rdd,Word Frequency,我对Spark RDD比较陌生，我想在Spark/RDD上使用Java来查找文本文件中的词频，但要逐段查找如果是在整个文本文件中，那么使用split、flatMap和reduceByKey似乎很简单。这里我需要的是文本文件中每个段落（由换行符分隔）中的词频如果你成功的话，请分享你的想法。谢谢这取决于段落是否指换行符，您可以使用“拆分”在换行符处拆分，然后计数？我试图避免这个问题，但您尝试了什么？这是一项既可以手动处理也可以使用火花变压器处理的琐碎任务。它并不像一开始看起来那么琐碎，我自己也

我对Spark RDD比较陌生，我想在Spark/RDD上使用Java来查找文本文件中的词频，但要逐段查找

如果是在整个文本文件中，那么使用split、flatMap和reduceByKey似乎很简单。这里我需要的是文本文件中每个段落（由换行符分隔）中的词频

如果你成功的话，请分享你的想法。

谢谢

这取决于段落是否指换行符，您可以使用“拆分”在换行符处拆分，然后计数？我试图避免这个问题，但您尝试了什么？这是一项既可以手动处理也可以使用火花变压器处理的琐碎任务。它并不像一开始看起来那么琐碎，我自己也认为它很琐碎。如果你们中有人使用apachespark和javardd成功了，请告诉我（我可以使用splitoversplit而不使用Spark/RDD，这很好）。请至少，告诉我如果RDD为[Array[Array[String]]，如何逐段应用flatMap，或者给出创建RDD RDD的想法（可能吗？）