Apache spark Spark流，单独处理每个输入文件并输出_Apache Spark_Spark Streaming

Apache spark Spark流，单独处理每个输入文件并输出

apache-spark

Apache spark Spark流，单独处理每个输入文件并输出,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我遇到的情况是，landing folder连续获取一组csv文件，我们需要将每个文件原样合并到另一个参考文件中，并仅在该文件的数据中进行一些计算（分组和排名），然后将结果数据框保存为csv文件。这意味着每个传入文件将生成一个输出文件，所有计算聚合都在该文件的数据内我的问题是我们如何做到这一点，我的理解是spark将把任何可用的数据放在一个数据帧中，并对整个数据集应用转换，我们可能会丢失来自每个文件的数据，而输出文件可能包含来自不同输入文件的聚合结果同时，我们应该能够通过分发工作节点来处理大

我遇到的情况是，landing folder连续获取一组csv文件，我们需要将每个文件原样合并到另一个参考文件中，并仅在该文件的数据中进行一些计算（分组和排名），然后将结果数据框保存为csv文件。这意味着每个传入文件将生成一个输出文件，所有计算聚合都在该文件的数据内

我的问题是我们如何做到这一点，我的理解是spark将把任何可用的数据放在一个数据帧中，并对整个数据集应用转换，我们可能会丢失来自每个文件的数据，而输出文件可能包含来自不同输入文件的聚合结果

同时，我们应该能够通过分发工作节点来处理大量传入的文件集，但主要目标是创建一个传入文件，并将转换应用于该文件中的数据，从而创建一个输出文件