List 将列表转换为dataframe，然后在pyspark中使用不同的dataframe进行连接_List_Dataframe_Apache Spark_Pyspark_Apache Spark Sql

List 将列表转换为dataframe，然后在pyspark中使用不同的dataframe进行连接

list dataframe apache-spark pyspark

List 将列表转换为dataframe，然后在pyspark中使用不同的dataframe进行连接,list,dataframe,apache-spark,pyspark,apache-spark-sql,List,Dataframe,Apache Spark,Pyspark,Apache Spark Sql,我正在使用pyspark数据帧我有一个日期类型值列表： date_list = ['2018-01-19', '2018-01-20', '2018-01-17'] 我还有一个数据帧（mean_df），它只有一列（mean）现在我想将日期列表转换为一列，并与mean_df连接：预期产出： +------------+----+ |dates |mean| +------------+----+ |2018-01-19 | 67| |2018-01-20 | 78| |

我正在使用pyspark数据帧

我有一个日期类型值列表：

date_list = ['2018-01-19', '2018-01-20', '2018-01-17']

我还有一个数据帧（mean_df），它只有一列（mean）

现在我想将日期列表转换为一列，并与mean_df连接：

预期产出：

+------------+----+
|dates       |mean|
+------------+----+
|2018-01-19  |  67|
|2018-01-20  |  78|
|2018-01-17  |  98|
+------------+----+

我尝试将列表转换为数据帧（日期）：

然后对date_df和mean_df和used join使用带有新列名“idx”的单调_递增的_id（）：

date_df = mean_df.join(date_df, mean_df.idx == date_df.idx).drop("idx")

我收到超时错误，所以我将默认广播超时300秒更改为6000秒

spark.conf.set("spark.sql.broadcastTimeout", 6000)

但它根本不起作用。另外，我现在正在处理一个非常小的数据样本。实际数据足够大

代码片段：

date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
mean_list = []


for d in date_list:
    h2_df1, h2_df2 = hypo_2(h2_df, d, 2)
    
    mean1 = h2_df1.select(_mean(col('count_before')).alias('mean_before'))
   
    mean_list.append(mean1)
    
    
mean_df = reduce(DataFrame.unionAll, mean_list)

您可以使用

with column

和

lit

将日期添加到数据框中：

import pyspark.sql.functions as F

date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
mean_list = []

for d in date_list:
    h2_df1, h2_df2 = hypo_2(h2_df, d, 2)
    
    mean1 = h2_df1.select(F.mean(F.col('count_before')).alias('mean_before')).withColumn('date', F.lit(d))
   
    mean_list.append(mean1)
    
    
mean_df = reduce(DataFrame.unionAll, mean_list)

Spark数据帧是无序的。你怎么知道mean_df数据框中的哪一行对应于哪一个日期？@mck使用for循环计算平均值。for循环从date_列表中获取日期。所以这三个平均值基本上与列表中的日期顺序相对应。平均值首先收集在列表中。然后将其转换为数据帧mean_df。我希望数据框中的日期和平均值一起用于进一步分析。当您将其转换为数据框时，您将丢失列表中的顺序，因此无法指定日期。您需要在列表中包含收集平均值的日期。你能给我看一下代码吗？@mck当然，我刚刚在帖子中添加了这个片段。

date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
mean_list = []


for d in date_list:
    h2_df1, h2_df2 = hypo_2(h2_df, d, 2)
    
    mean1 = h2_df1.select(_mean(col('count_before')).alias('mean_before'))
   
    mean_list.append(mean1)
    
    
mean_df = reduce(DataFrame.unionAll, mean_list)

import pyspark.sql.functions as F

date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
mean_list = []

for d in date_list:
    h2_df1, h2_df2 = hypo_2(h2_df, d, 2)
    
    mean1 = h2_df1.select(F.mean(F.col('count_before')).alias('mean_before')).withColumn('date', F.lit(d))
   
    mean_list.append(mean1)
    
    
mean_df = reduce(DataFrame.unionAll, mean_list)