Apache spark 如何将1000个文件移动到RDD'；s_Apache Spark_Pyspark

Apache spark 如何将1000个文件移动到RDD'；s

apache-spark pyspark

Apache spark 如何将1000个文件移动到RDD'；s,apache-spark,pyspark,Apache Spark,Pyspark,我是Apache Spark的新手，需要帮助我有一个python脚本，可以读取6个tdms文件（tdms（）函数），并为每个文件的数字数据构建图形（graph（）函数）。我用for循环来做。但是我想加载1000个这样的文件，并为每个文件并行运行这个脚本。所以我想用这个文件创建RDD，并对每个文件应用我的函数我怎么做？我可以定义Spark中的节点数吗？您是否尝试过制作包含所有需要读取的文件的Python列表，并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数，然

我是Apache Spark的新手，需要帮助

我有一个python脚本，可以读取6个tdms文件（tdms（）函数），并为每个文件的数字数据构建图形（graph（）函数）。我用for循环来做。但是我想加载1000个这样的文件，并为每个文件并行运行这个脚本。所以我想用这个文件创建RDD，并对每个文件应用我的函数

我怎么做？

我可以定义Spark中的节点数吗？

您是否尝试过制作包含所有需要读取的文件的Python列表，并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数，然后我想保存它

或者将文件列表设置为RDD，并使用map、lambda（用于图形）为每个文件运行这些文件

如果您只关心并行运行，您可以继续加载数据并生成一个大型RDD，然后调用sc.parallelize。您可以决定Spark执行此操作，也可以通过调用sc.parallelize（data，）来指定要使用的数字。

您是否尝试过制作包含所有需要读取的文件的Python列表，并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数，然后我猜保存它

或者将文件列表设置为RDD，并使用map、lambda（用于图形）为每个文件运行这些文件

如果您只关心并行运行，您可以继续加载数据并生成一个大型RDD，然后调用sc.parallelize。您可以决定Spark执行此操作，也可以通过调用sc.parallelize（data，）指定要使用的号码。

我不确定tdms文件是什么，但Spark中的大多数函数都可以将目录作为输入文件（这是此目录中所有文件的“总和”）。我不确定tdms文件是什么，但spark中的大多数函数都可以将目录作为输入文件（即该目录中所有文件的“总和”）。