Apache spark 如何从包含文本文件的输入目录创建RDD?

Apache spark 如何从包含文本文件的输入目录创建RDD?,apache-spark,machine-learning,bigdata,analysis,apache-spark-mllib,Apache Spark,Machine Learning,Bigdata,Analysis,Apache Spark Mllib,我正在使用20个新闻组数据集。基本上,我有一个文件夹和n个文本文件。文件夹中的文件属于该文件夹命名的主题。我有20个这样的文件夹。我如何将所有这些数据加载到Spark中并从中生成RDD,以便对它们应用机器学习转换和操作?(例如:像天真的贝叶斯)。我正在寻找创建RDD的方法。在如何应用算法方面没有帮助 您可以使用SparkConext.wholeTextFiles(…)。它读取一个目录并为该目录中的所有文件创建RDD。您可以使用SparkConext.wholeTextFiles(…)。它读取一个

我正在使用20个新闻组数据集。基本上,我有一个文件夹和n个文本文件。文件夹中的文件属于该文件夹命名的主题。我有20个这样的文件夹。我如何将所有这些数据加载到Spark中并从中生成RDD,以便对它们应用机器学习转换和操作?(例如:像天真的贝叶斯)。我正在寻找创建RDD的方法。在如何应用算法方面没有帮助

您可以使用SparkConext.wholeTextFiles(…)。它读取一个目录并为该目录中的所有文件创建RDD。

您可以使用SparkConext.wholeTextFiles(…)。它读取一个目录并为该目录中的所有文件创建RDD。

您可以使用SparkConext.wholeTextFiles(…)。它读取一个目录并为该目录中的所有文件创建RDD。

您可以使用SparkConext.wholeTextFiles(…)。它读取一个目录并为该目录中的所有文件创建RDD