Pyspark中的R公式等价物_R_Pyspark

Pyspark中的R公式等价物

r pyspark

Pyspark中的R公式等价物,r,pyspark,R,Pyspark,我试图为下面的R代码找到等效的Pyspark代码生成滞后变量有什么想法吗？谢谢我认为使用窗口功能应该是可行的，尽管您需要订购一些东西： import pyspark.sql.functions as func from pyspark.sql.window import Window window = Window.partitionBy("Model").orderBy( ??? ) car = car.withColumn("Target.1", func.lag("Target",

我试图为下面的R代码找到等效的Pyspark代码

生成滞后变量有什么想法吗？

谢谢

我认为使用窗口功能应该是可行的，尽管您需要订购一些东西：

import pyspark.sql.functions as func
from pyspark.sql.window import Window

window = Window.partitionBy("Model").orderBy( ??? )
car = car.withColumn("Target.1", func.lag("Target", 3).over(window))\
    .withColumn("Sales.1", func.lag("Sales", 3))

我在循环中使用这个。我每个月有三排。我正在使用以下条件。由于某些原因，结果不正确。对于范围3中的i：如果i如何工作不正常？为什么在第三个范围内，你们两个都有？如果我是你们帮助我完美工作的那个人，我的逻辑是错误的。感谢您的帮助：

import pyspark.sql.functions as func
from pyspark.sql.window import Window

window = Window.partitionBy("Model").orderBy( ??? )
car = car.withColumn("Target.1", func.lag("Target", 3).over(window))\
    .withColumn("Sales.1", func.lag("Sales", 3))