Apache spark 使用pyspark在Bigquery中将数据编码为ISO_8859_1_Apache Spark_Pyspark_Google Cloud Dataproc

Apache spark 使用pyspark在Bigquery中将数据编码为ISO_8859_1

apache-spark pyspark

Apache spark 使用pyspark在Bigquery中将数据编码为ISO_8859_1,apache-spark,pyspark,google-cloud-dataproc,Apache Spark,Pyspark,Google Cloud Dataproc,我的pyspark数据框中有多语言字符。在将数据写入bigquery后，由于其Deafolt编码方案（utf-8），它会向我显示奇怪的字符。如何使用pyspark/dataproc将Bigquery中的编码更改为ISO_8859_1 首先要检查源代码或源代码系统它如何发送数据，并了解它是哪种编码。如果仍然不同，则进行以下调查 AFAIK pyspark正在读取utf-8编码的json，并根据您的评论加载到bigquery中。所以它的默认错误是utf-8 您可以将编码更改为ISO-8859-1

我的pyspark数据框中有多语言字符。在将数据写入bigquery后，由于其Deafolt编码方案（utf-8），它会向我显示奇怪的字符。如何使用pyspark/dataproc将Bigquery中的编码更改为ISO_8859_1

首先要检查源代码或源代码系统它如何发送数据，并了解它是哪种编码。如果仍然不同，则进行以下调查

AFAIK pyspark正在读取utf-8编码的json，并根据您的评论加载到bigquery中。所以它的默认错误是utf-8

您可以将编码更改为ISO-8859-1并加载json，如下所示

spark.read.option('encoding','ISO-8859-1').json("yourjsonpathwith latin-1 ")

并加载到bigquery

还有

将数据帧写入bigquery时

您可以使用iso-8859-1和utf-8格式的col和charset使用
```
decode
```
函数进行测试/调试，以了解使用
```
pyspark.sql.functions.decode（columnname，charset）
```
以及查看其是否能够解码为utf-8

您可以使用

pyspark.sql.functions.decode（col，charset）

首先要检查源代码或源系统它如何发送数据，并了解它是哪种编码。如果仍然不同，则进行以下调查

AFAIK pyspark正在读取utf-8编码的json，并根据您的评论加载到bigquery中。所以它的默认错误是utf-8

您可以将编码更改为ISO-8859-1并加载json，如下所示

spark.read.option('encoding','ISO-8859-1').json("yourjsonpathwith latin-1 ")

并加载到bigquery

还有

将数据帧写入bigquery时

您可以使用iso-8859-1和utf-8格式的col和charset使用
```
decode
```
函数进行测试/调试，以了解使用
```
pyspark.sql.functions.decode（columnname，charset）
```
以及查看其是否能够解码为utf-8

您可以使用

pyspark.sql.functions.decode（col，charset）