Apache spark 转换标题和列数据,以“"|&引用;在pyspark中,使用特定的标题名称和数据行将其分成单独的列

Apache spark 转换标题和列数据,以“"|&引用;在pyspark中,使用特定的标题名称和数据行将其分成单独的列,apache-spark,pyspark,Apache Spark,Pyspark,我在pyspark中读到了一个txt文件,用于家庭作业,其中运算符“|”分隔了3列数据。 如何在适当的数组中分隔这3列?这就是我迄今为止所取得的成就: +---------------------+ |bid|gender|department| +---------------------+ | 1|M|Informatics| | 2|M|Low| +---------------------+ 正如您所看到的,页眉已创建,但未作为列和数据分隔。请尝试将

我在pyspark中读到了一个txt文件,用于家庭作业,其中运算符“|”分隔了3列数据。 如何在适当的数组中分隔这3列?这就是我迄今为止所取得的成就:

+---------------------+
|bid|gender|department|
+---------------------+
|      1|M|Informatics|
|              2|M|Low|
+---------------------+

正如您所看到的,页眉已创建,但未作为列和数据分隔。

请尝试将
分隔符
选项指定为
|
,并在pyspark中读取为
.csv
文件

示例:

df=spark.read.option("header","true").option("delimiter","|").csv("<path_to_csv_file>")
df.show()
#+---+------+-----------+
#|bid|gender| department|
#+---+------+-----------+
#|  1|     M|Informatics|
#|  2|     M|        Low|
#+---+------+-----------+
#Save dataframe as file
df.write.mode("either overwrite/append ").option("header","true").save("location")

#writing to hive table
df.write.saveAsTable("<db>.<table_name>")

正如您所见,我需要两种方法:-(任何地方都可以找到如何保存此df?请检查答案的
更新
部分!