Dataframe Spark写入CSV不写入unicode字符_Dataframe_Csv_Apache Spark_Pyspark_Apache Spark Sql

Dataframe Spark写入CSV不写入unicode字符

dataframe csv apache-spark pyspark

Dataframe Spark写入CSV不写入unicode字符,dataframe,csv,apache-spark,pyspark,apache-spark-sql,Dataframe,Csv,Apache Spark,Pyspark,Apache Spark Sql,我有一个字符串，其中包含unicode字符（ctrl-B）作为数据帧一列中的最后一个字符使用spark将其写入CSV后，字符串中没有最后一个unicode字符（ctrl-B） df.show() +------------+-------+ |a | b| +------------+-------+ | 25|0^B^B0^B| +------------+-------+ df.write.format("com.databricks.spark.cs

我有一个字符串，其中包含unicode字符（ctrl-B）作为数据帧一列中的最后一个字符

使用spark将其写入CSV后，字符串中没有最后一个unicode字符（ctrl-B）

df.show()
+------------+-------+
|a      |      b|
+------------+-------+
|     25|0^B^B0^B|
+------------+-------+
df.write.format("com.databricks.spark.csv").save("/home/test_csv_data")


vim /home/test_csv_data/part*
25,0^B^B0

它没有最后一个ctrl-B字符。但是如果我使用spark以ORC或拼花格式编写，那么最后一个ctrl-B就出现了

请指导我，为什么会这样。如何在结束时以csv格式获取ctrl-B？

“^B”被视为空白，默认设置为

ignoreTrailingWhiteSpace

，这将删除它，因此您可以将其设置为

false

：

df.write.option("ignoreTrailingWhiteSpace","false").format("com.databricks.spark.csv").save("/home/test_csv_data")