Apache spark 如何从包含文本文件的输入目录创建RDD？_Apache Spark_Machine Learning_Bigdata_Analysis_Apache Spark Mllib

Apache spark 如何从包含文本文件的输入目录创建RDD？

apache-spark machine-learning

Apache spark 如何从包含文本文件的输入目录创建RDD？,apache-spark,machine-learning,bigdata,analysis,apache-spark-mllib,Apache Spark,Machine Learning,Bigdata,Analysis,Apache Spark Mllib,我正在使用20个新闻组数据集。基本上，我有一个文件夹和n个文本文件。文件夹中的文件属于该文件夹命名的主题。我有20个这样的文件夹。我如何将所有这些数据加载到Spark中并从中生成RDD，以便对它们应用机器学习转换和操作？（例如：像天真的贝叶斯）。我正在寻找创建RDD的方法。在如何应用算法方面没有帮助您可以使用SparkConext.wholeTextFiles（…）。它读取一个目录并为该目录中的所有文件创建RDD。您可以使用SparkConext.wholeTextFiles（…）。它读取一个

我正在使用20个新闻组数据集。基本上，我有一个文件夹和n个文本文件。文件夹中的文件属于该文件夹命名的主题。我有20个这样的文件夹。我如何将所有这些数据加载到Spark中并从中生成RDD，以便对它们应用机器学习转换和操作？（例如：像天真的贝叶斯）。我正在寻找创建RDD的方法。在如何应用算法方面没有帮助

您可以使用SparkConext.wholeTextFiles（…）。它读取一个目录并为该目录中的所有文件创建RDD。

您可以使用SparkConext.wholeTextFiles（…）。它读取一个目录并为该目录中的所有文件创建RDD