Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark流,单独处理每个输入文件并输出_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark Spark流,单独处理每个输入文件并输出

Apache spark Spark流,单独处理每个输入文件并输出,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我遇到的情况是,landing folder连续获取一组csv文件,我们需要将每个文件原样合并到另一个参考文件中,并仅在该文件的数据中进行一些计算(分组和排名),然后将结果数据框保存为csv文件。这意味着每个传入文件将生成一个输出文件,所有计算聚合都在该文件的数据内 我的问题是我们如何做到这一点,我的理解是spark将把任何可用的数据放在一个数据帧中,并对整个数据集应用转换,我们可能会丢失来自每个文件的数据,而输出文件可能包含来自不同输入文件的聚合结果 同时,我们应该能够通过分发工作节点来处理大

我遇到的情况是,landing folder连续获取一组csv文件,我们需要将每个文件原样合并到另一个参考文件中,并仅在该文件的数据中进行一些计算(分组和排名),然后将结果数据框保存为csv文件。这意味着每个传入文件将生成一个输出文件,所有计算聚合都在该文件的数据内

我的问题是我们如何做到这一点,我的理解是spark将把任何可用的数据放在一个数据帧中,并对整个数据集应用转换,我们可能会丢失来自每个文件的数据,而输出文件可能包含来自不同输入文件的聚合结果

同时,我们应该能够通过分发工作节点来处理大量传入的文件集,但主要目标是创建一个传入文件,并将转换应用于该文件中的数据,从而创建一个输出文件