Apache spark 循环使用Spark Dataframe，保存结果并使用上一次迭代的结果_Apache Spark_Pyspark Sql_Azure Databricks

Apache spark 循环使用Spark Dataframe，保存结果并使用上一次迭代的结果

apache-spark

Apache spark 循环使用Spark Dataframe，保存结果并使用上一次迭代的结果,apache-spark,pyspark-sql,azure-databricks,Apache Spark,Pyspark Sql,Azure Databricks,如何循环使用spark数据框架，应用业务逻辑并在下一次迭代中使用结果。我将一个脚本从pandas/numpy迁移到spark，因为我们在这个工作中需要处理大量的数据。我们的业务逻辑非常复杂，我已经能够将其转移到spark。我遇到的问题是如何将下面第1组的结果传递到第2组以供使用。此外，问题并不是那么简单，根据过去的组，有大约10个变量将用于当前组的计算。我一直在考虑在组中进行流处理，并将结果保存到某种临时表中，然后在下一个流中使用结果？我还不确定那会怎样。有什么想法吗对于添加的上下文：我有

如何循环使用spark数据框架，应用业务逻辑并在下一次迭代中使用结果。我将一个脚本从pandas/numpy迁移到spark，因为我们在这个工作中需要处理大量的数据。我们的业务逻辑非常复杂，我已经能够将其转移到spark。我遇到的问题是如何将下面第1组的结果传递到第2组以供使用。此外，问题并不是那么简单，根据过去的组，有大约10个变量将用于当前组的计算。我一直在考虑在组中进行流处理，并将结果保存到某种临时表中，然后在下一个流中使用结果？我还不确定那会怎样。有什么想法吗

对于添加的上下文：

我有一个数据框架，其中实现了大量的逻辑。有一列从1到20。我为第一组定义了大量的逻辑。我需要将这些相同的转换和计算传递到下一组2，以此类推。是否可以将数据帧传递给具有输出的函数？

您是否可以共享输出，您正在查看for@Rahul添加上下文