从python嵌套列表在hdfs中创建数据帧_Python_Dataframe_Pyspark_Hdfs

从python嵌套列表在hdfs中创建数据帧

python dataframe pyspark

从python嵌套列表在hdfs中创建数据帧,python,dataframe,pyspark,hdfs,Python,Dataframe,Pyspark,Hdfs,假设我有一个大列表，如下所示： lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...] 我想创建一个包含3列name、country和num的表，并将其保存为hdfs中的拼花地板我怎样才能用Pypark做到这一点将此列表保存为csv文件并直接在pyspark中加载是否更好？使用python写入csv并使用spark加载它是一种过度消耗。您可以使用createDataFrame

假设我有一个大列表，如下所示：

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...]

我想创建一个包含3列name、country和num的表，并将其保存为hdfs中的拼花地板

我怎样才能用Pypark做到这一点

将此列表保存为csv文件并直接在pyspark中加载是否更好？

使用

python

写入csv并使用

spark

加载它是一种过度消耗。您可以使用

createDataFrame

直接创建数据帧：

lst=[['david'，意大利'，234]，'alice'，法国'，517]，'kim'，日本'，673]]
df=spark.createDataFrame（lst，['name'，'country'，'num']）
df.show（3）
+-----+-------+---+
|名称|国家|数量|
+-----+-------+---+
|大卫|意大利| 234|
|爱丽丝|法国| 517|
|金日成673|
+-----+-------+---+

最后，使用

df.write.parquet

方法写入

hdfs