Apache spark 将pyspark列转换为列表_Apache Spark_Pyspark

Apache spark 将pyspark列转换为列表

apache-spark pyspark

Apache spark 将pyspark列转换为列表,apache-spark,pyspark,Apache Spark,Pyspark,我以为这很容易，但找不到答案：-）如何将中的“名称”列转换为列表。我希望我能让isin工作，而不是加入另一个datframe列。但isin似乎需要一个列表（如果我理解正确的话）创建datframe： from pyspark import SparkContext, SparkConf, SQLContext from datetime import datetime sc = SparkContext().getOrCreate() sqlContext = SQLContext(sc)

我以为这很容易，但找不到答案：-）

如何将中的“名称”列转换为列表。我希望我能让isin工作，而不是加入另一个datframe列。但isin似乎需要一个列表（如果我理解正确的话）

创建datframe：

from pyspark import SparkContext, SparkConf, SQLContext
from datetime import datetime
sc = SparkContext().getOrCreate()
sqlContext = SQLContext(sc)

data2 = [
  ('George', datetime(2010, 3, 24, 3, 19, 58), 3),
  ('Sally', datetime(2009, 12, 12, 17, 21, 30), 5),
  ('Frank', datetime(2010, 11, 22, 13, 29, 40), 2),
  ('Paul', datetime(2010, 2, 8, 3, 31, 23), 8),
  ('Jesus', datetime(2009, 1, 1, 4, 19, 47), 2),
  ('Lou', datetime(2010, 3, 2, 4, 33, 51), 3),
]
 
df2 = sqlContext.createDataFrame(data2, ['name', 'trial_start_time', 'purchase_time'])
df2.show(truncate=False)

应该是这样的：

+------+-------------------+-------------+
|name  |trial_start_time   |purchase_time|
+------+-------------------+-------------+
|George|2010-03-24 07:19:58|3            |
|Sally |2009-12-12 22:21:30|5            |
|Frank |2010-11-22 18:29:40|2            |
|Paul  |2010-02-08 08:31:23|8            |
|Jesus |2009-01-01 09:19:47|2            |
|Lou   |2010-03-02 09:33:51|3            |
+------+-------------------+-------------+

我不确定collect是否是我能做到的最接近的方法

df2.选择（“名称”）.collect（）

关于如何将name列输出到列表中，有什么建议吗

它可能需要如下所示：

[George，Sally，Frank，Paul，Jesus，Lou]

使用收集列表
函数，然后收集以获取列表变量
示例：

from pyspark.sql.functions import * df2.agg(collect_list(col("name")).alias("name")).show(10,False) #+----------------------------------------+ #|name | #+----------------------------------------+ #|[George, Sally, Frank, Paul, Jesus, Lou]| #+----------------------------------------+ lst=df2.agg(collect_list(col("name"))).collect()[0][0] lst #['George', 'Sally', 'Frank', 'Paul', 'Jesus', 'Lou']

from pyspark.sql.functions import * df2.agg(collect_list(col("name")).alias("name")).show(10,False) #+----------------------------------------+ #|name | #+----------------------------------------+ #|[George, Sally, Frank, Paul, Jesus, Lou]| #+----------------------------------------+ lst=df2.agg(collect_list(col("name"))).collect()[0][0] lst #['George', 'Sally', 'Frank', 'Paul', 'Jesus', 'Lou']