从python嵌套列表在hdfs中创建数据帧

从python嵌套列表在hdfs中创建数据帧,python,dataframe,pyspark,hdfs,Python,Dataframe,Pyspark,Hdfs,假设我有一个大列表,如下所示: lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...] 我想创建一个包含3列name、country和num的表,并将其保存为hdfs中的拼花地板 我怎样才能用Pypark做到这一点 将此列表保存为csv文件并直接在pyspark中加载是否更好?使用python写入csv并使用spark加载它是一种过度消耗。您可以使用createDataFrame

假设我有一个大列表,如下所示:

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...]
我想创建一个包含3列name、country和num的表,并将其保存为hdfs中的拼花地板

我怎样才能用Pypark做到这一点


将此列表保存为csv文件并直接在pyspark中加载是否更好?

使用
python
写入csv并使用
spark
加载它是一种过度消耗。您可以使用
createDataFrame
直接创建数据帧:

lst=[['david',意大利',234],'alice',法国',517],'kim',日本',673]]
df=spark.createDataFrame(lst,['name','country','num'])
df.show(3)
+-----+-------+---+
|名称|国家|数量|
+-----+-------+---+
|大卫|意大利| 234|
|爱丽丝|法国| 517|
|金日成673|
+-----+-------+---+
最后,使用
df.write.parquet
方法写入
hdfs