Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何将1000个文件移动到RDD';s_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 如何将1000个文件移动到RDD';s

Apache spark 如何将1000个文件移动到RDD';s,apache-spark,pyspark,Apache Spark,Pyspark,我是Apache Spark的新手,需要帮助 我有一个python脚本,可以读取6个tdms文件(tdms()函数),并为每个文件的数字数据构建图形(graph()函数)。我用for循环来做。 但是我想加载1000个这样的文件,并为每个文件并行运行这个脚本。所以我想用这个文件创建RDD,并对每个文件应用我的函数 我怎么做? 我可以定义Spark中的节点数吗?您是否尝试过制作包含所有需要读取的文件的Python列表,并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数,然

我是Apache Spark的新手,需要帮助

我有一个python脚本,可以读取6个tdms文件(tdms()函数),并为每个文件的数字数据构建图形(graph()函数)。我用for循环来做。 但是我想加载1000个这样的文件,并为每个文件并行运行这个脚本。所以我想用这个文件创建RDD,并对每个文件应用我的函数

我怎么做?
我可以定义Spark中的节点数吗?

您是否尝试过制作包含所有需要读取的文件的Python列表,并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数,然后我想保存它

或者将文件列表设置为RDD,并使用map、lambda(用于图形)为每个文件运行这些文件


如果您只关心并行运行,您可以继续加载数据并生成一个大型RDD,然后调用sc.parallelize。您可以决定Spark执行此操作,也可以通过调用sc.parallelize(data,)来指定要使用的数字。

您是否尝试过制作包含所有需要读取的文件的Python列表,并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数,然后我猜保存它

或者将文件列表设置为RDD,并使用map、lambda(用于图形)为每个文件运行这些文件


如果您只关心并行运行,您可以继续加载数据并生成一个大型RDD,然后调用sc.parallelize。您可以决定Spark执行此操作,也可以通过调用sc.parallelize(data,)指定要使用的号码。

我不确定tdms文件是什么,但Spark中的大多数函数都可以将目录作为输入文件(这是此目录中所有文件的“总和”)。我不确定tdms文件是什么,但spark中的大多数函数都可以将目录作为输入文件(即该目录中所有文件的“总和”)。