Apache spark 如何将1000个文件移动到RDD';s
我是Apache Spark的新手,需要帮助 我有一个python脚本,可以读取6个tdms文件(tdms()函数),并为每个文件的数字数据构建图形(graph()函数)。我用for循环来做。 但是我想加载1000个这样的文件,并为每个文件并行运行这个脚本。所以我想用这个文件创建RDD,并对每个文件应用我的函数 我怎么做?Apache spark 如何将1000个文件移动到RDD';s,apache-spark,pyspark,Apache Spark,Pyspark,我是Apache Spark的新手,需要帮助 我有一个python脚本,可以读取6个tdms文件(tdms()函数),并为每个文件的数字数据构建图形(graph()函数)。我用for循环来做。 但是我想加载1000个这样的文件,并为每个文件并行运行这个脚本。所以我想用这个文件创建RDD,并对每个文件应用我的函数 我怎么做? 我可以定义Spark中的节点数吗?您是否尝试过制作包含所有需要读取的文件的Python列表,并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数,然
我可以定义Spark中的节点数吗?您是否尝试过制作包含所有需要读取的文件的Python列表,并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数,然后我想保存它 或者将文件列表设置为RDD,并使用map、lambda(用于图形)为每个文件运行这些文件
如果您只关心并行运行,您可以继续加载数据并生成一个大型RDD,然后调用sc.parallelize。您可以决定Spark执行此操作,也可以通过调用sc.parallelize(data,)来指定要使用的数字。您是否尝试过制作包含所有需要读取的文件的Python列表,并在for循环中运行这些文件以从文件中读取数据、创建RDD、运行graph函数,然后我猜保存它 或者将文件列表设置为RDD,并使用map、lambda(用于图形)为每个文件运行这些文件
如果您只关心并行运行,您可以继续加载数据并生成一个大型RDD,然后调用sc.parallelize。您可以决定Spark执行此操作,也可以通过调用sc.parallelize(data,)指定要使用的号码。我不确定tdms文件是什么,但Spark中的大多数函数都可以将目录作为输入文件(这是此目录中所有文件的“总和”)。我不确定tdms文件是什么,但spark中的大多数函数都可以将目录作为输入文件(即该目录中所有文件的“总和”)。