从python嵌套列表在hdfs中创建数据帧
假设我有一个大列表,如下所示:从python嵌套列表在hdfs中创建数据帧,python,dataframe,pyspark,hdfs,Python,Dataframe,Pyspark,Hdfs,假设我有一个大列表,如下所示: lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...] 我想创建一个包含3列name、country和num的表,并将其保存为hdfs中的拼花地板 我怎样才能用Pypark做到这一点 将此列表保存为csv文件并直接在pyspark中加载是否更好?使用python写入csv并使用spark加载它是一种过度消耗。您可以使用createDataFrame
lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...]
我想创建一个包含3列name、country和num的表,并将其保存为hdfs中的拼花地板
我怎样才能用Pypark做到这一点
将此列表保存为csv文件并直接在pyspark中加载是否更好?使用
python
写入csv并使用spark
加载它是一种过度消耗。您可以使用createDataFrame
直接创建数据帧:
lst=[['david',意大利',234],'alice',法国',517],'kim',日本',673]]
df=spark.createDataFrame(lst,['name','country','num'])
df.show(3)
+-----+-------+---+
|名称|国家|数量|
+-----+-------+---+
|大卫|意大利| 234|
|爱丽丝|法国| 517|
|金日成673|
+-----+-------+---+
最后,使用df.write.parquet
方法写入hdfs