使用PySpark读取简单csv_Csv_Pyspark_Data Science Experience

使用PySpark读取简单csv

csv pyspark

使用PySpark读取简单csv,csv,pyspark,data-science-experience,Csv,Pyspark,Data Science Experience,可能是个愚蠢的问题，但我不明白。我正在使用Python3.6和Spark 2.4开发一款Jupyter笔记本，由IBM Watson Studio托管我有一个简单的csv文件： num,label 0,0 1,0 2,0 3,0 要阅读它，我使用以下命令： labels = spark.read.csv(url, sep=',', header=True) 但是如果我使用labels.head（）检查labels是否正确，我会得到行（PAR1Љ��L�Q�� ='\x08\x00]”）

可能是个愚蠢的问题，但我不明白。我正在使用Python3.6和Spark 2.4开发一款Jupyter笔记本，由IBM Watson Studio托管

我有一个简单的csv文件：

num,label
0,0
1,0
2,0
3,0

要阅读它，我使用以下命令：

labels = spark.read.csv(url, sep=',', header=True)

但是如果我使用

labels.head（）

检查

labels

是否正确，我会得到

行（PAR1Љ��L�Q��  ='\x08\x00]”）

我遗漏了什么？

这似乎是由于编码问题造成的

使用选项中提供的编码尝试此操作，alo Try with UTF-8

labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")

事实上，ISO-8859-1编码完成了这项工作。然而，像这样的说法是行不通的。我运行了

labels=spark.read.csv（url，sep='，，header=True，encoding=“ISO-8859-1”）