Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/ios/99.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Spark使用上一行的值向dataframe添加新列_Python_Apache Spark_Dataframe_Pyspark_Apache Spark Sql - Fatal编程技术网

Python Spark使用上一行的值向dataframe添加新列

Python Spark使用上一行的值向dataframe添加新列,python,apache-spark,dataframe,pyspark,apache-spark-sql,Python,Apache Spark,Dataframe,Pyspark,Apache Spark Sql,我想知道如何在Spark(Pyspark)中实现以下目标 初始数据帧: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+ |3 |7.0| 3.0 | +--+---+----

我想知道如何在Spark(Pyspark)中实现以下目标

初始数据帧:

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+
+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+
结果数据帧:

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+
+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+
我通常会使用以下方法将新列“附加”到数据帧:
df.withColumn(“新列”,df.num*10)

但是,我不知道如何实现新列的“行移位”,以便新列具有上一行的字段值(如示例所示)。我在API文档中也找不到任何关于如何通过索引访问DF中的某一行的内容


任何帮助都将不胜感激。

您可以使用
lag
窗口功能,如下所示

from pyspark.sql.functions import lag, col
from pyspark.sql.window import Window

df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"])
w = Window().partitionBy().orderBy(col("id"))
df.select("*", lag("num").over(w).alias("new_col")).na.drop().show()

## +---+---+-------+
## | id|num|new_col|
## +---+---+-------|
## |  2|3.0|    5.0|
## |  3|7.0|    3.0|
## |  4|9.0|    7.0|
## +---+---+-------+
但也有一些重要问题:

  • 如果您需要一个全局操作(不被其他一些列分割),那么它的效率非常低
  • 您需要一种自然的方式来整理数据 虽然第二个问题几乎从来都不是问题,但第一个问题可能会破坏交易。如果是这种情况,您只需将
    数据帧
    转换为RDD并手动计算
    滞后
    。例如,见:

    • (用Scala编写,但可以针对PySpark进行调整。请务必先阅读注释)
    其他有用的链接: