写pyspark数据框，标题为拼花地板_Pyspark_Pyspark Sql_Parquet_Pyspark Dataframes

写pyspark数据框，标题为拼花地板

pyspark

写pyspark数据框，标题为拼花地板,pyspark,pyspark-sql,parquet,pyspark-dataframes,Pyspark,Pyspark Sql,Parquet,Pyspark Dataframes,因此，如果我执行df=sql\u context.read.csv（“test\u data\u 2019-01-01.csv”，header=False），然后执行df.write.parquet（“test\u data\u 2019-01-01.parquet”）所有操作，但如果我在read.csv中设置header=True，然后尝试写入，则会出现以下错误：调用o522.parquet时出错。：org.apache.spark.sql.AnalysisException:属性名称“M

因此，如果我执行

df=sql\u context.read.csv（“test\u data\u 2019-01-01.csv”，header=False）

，然后执行

df.write.parquet（“test\u data\u 2019-01-01.parquet”）

所有操作，但如果我在

read.csv

中设置

header=True

，然后尝试写入，则会出现以下错误：

调用o522.parquet时出错。：org.apache.spark.sql.AnalysisException:属性名称“M6_Debt_Review_Ind”包含“，；{}（）\n\t=”之间的无效字符。请使用别名重命名它。

我需要这些标题，否则列名显示如下：


[行（_c0='foo'，u c1='bar'，u c2='bla'，u c3='bla2'，u c4='bla'，u c5='bla3'，u c6='bla4'），
世界其他地区（c0='1161057'，uC1='57793622'，uC2='6066807'，uC3='2017-01-31'，uC4='2017-01-31'，uC5='1'，uC6='0'），
世界其他地区（_c0='1177047'、_c1='58973984'、_c2='4938603'、_c3='2017-02-28'、_c4='2017-02-28'、_c5='0'、_c6='0'））

而不是

[世界其他地区（foo='1161057'，bar='57793622'，bla='6066807'，bla2='2017-01-31'，bla2='2017-01-31'，bla3='1'，M6债务审查'0'，
世界其他地区（foo='1177047'，bar='58973984'，bla='4938603'，bla2='2017-02-28'，blabla='2017-02-28'，bla3='0'，bla4='0'）]

提前感谢您的建议。

别担心，这是个愚蠢的错误。列名中有一个空格