Apache spark 循环使用Spark Dataframe,保存结果并使用上一次迭代的结果

Apache spark 循环使用Spark Dataframe,保存结果并使用上一次迭代的结果,apache-spark,pyspark-sql,azure-databricks,Apache Spark,Pyspark Sql,Azure Databricks,如何循环使用spark数据框架,应用业务逻辑并在下一次迭代中使用结果。我将一个脚本从pandas/numpy迁移到spark,因为我们在这个工作中需要处理大量的数据。我们的业务逻辑非常复杂,我已经能够将其转移到spark。我遇到的问题是如何将下面第1组的结果传递到第2组以供使用。此外,问题并不是那么简单,根据过去的组,有大约10个变量将用于当前组的计算。我一直在考虑在组中进行流处理,并将结果保存到某种临时表中,然后在下一个流中使用结果?我还不确定那会怎样。有什么想法吗 对于添加的上下文: 我有

如何循环使用spark数据框架,应用业务逻辑并在下一次迭代中使用结果。我将一个脚本从pandas/numpy迁移到spark,因为我们在这个工作中需要处理大量的数据。我们的业务逻辑非常复杂,我已经能够将其转移到spark。我遇到的问题是如何将下面第1组的结果传递到第2组以供使用。此外,问题并不是那么简单,根据过去的组,有大约10个变量将用于当前组的计算。我一直在考虑在组中进行流处理,并将结果保存到某种临时表中,然后在下一个流中使用结果?我还不确定那会怎样。有什么想法吗

对于添加的上下文:


我有一个数据框架,其中实现了大量的逻辑。有一列从1到20。我为第一组定义了大量的逻辑。我需要将这些相同的转换和计算传递到下一组2,以此类推。是否可以将数据帧传递给具有输出的函数?

您是否可以共享输出,您正在查看for@Rahul添加上下文