使用PySpark读取简单csv

使用PySpark读取简单csv,csv,pyspark,data-science-experience,Csv,Pyspark,Data Science Experience,可能是个愚蠢的问题,但我不明白。我正在使用Python3.6和Spark 2.4开发一款Jupyter笔记本,由IBM Watson Studio托管 我有一个简单的csv文件: num,label 0,0 1,0 2,0 3,0 要阅读它,我使用以下命令: labels = spark.read.csv(url, sep=',', header=True) 但是如果我使用labels.head()检查labels是否正确,我会得到行(PAR1Љ��L�Q�� ='\x08\x00]”)

可能是个愚蠢的问题,但我不明白。我正在使用Python3.6和Spark 2.4开发一款Jupyter笔记本,由IBM Watson Studio托管

我有一个简单的csv文件:

num,label
0,0
1,0
2,0
3,0
要阅读它,我使用以下命令:

labels = spark.read.csv(url, sep=',', header=True)
但是如果我使用
labels.head()
检查
labels
是否正确,我会得到
行(PAR1Љ��L�Q��  ='\x08\x00]”)


我遗漏了什么?

这似乎是由于编码问题造成的

使用选项中提供的编码尝试此操作,alo Try with UTF-8

labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")

事实上,ISO-8859-1编码完成了这项工作。然而,像这样的说法是行不通的。我运行了
labels=spark.read.csv(url,sep=',,header=True,encoding=“ISO-8859-1”)