Python PySpark-加载本地文件(图像)时路径不存在

Python PySpark-加载本地文件(图像)时路径不存在,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我正在使用python中的pyspark完成我的第一步spark,我面临着一些疑问和一个在寻找有效解决方案后无法解决的失败。到目前为止,我正在做: import pyspark from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext('local') spark = SparkSession(sc) 我不完全理解上面的代码。在启动pyspark

我正在使用python中的
pyspark
完成我的第一步
spark
,我面临着一些疑问和一个在寻找有效解决方案后无法解决的失败。到目前为止,我正在做:

import pyspark
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)
我不完全理解上面的代码。在启动pyspark项目时,它是否必须始终存在?
SparkContext
是否设置为
local
,因为我正在本地使用我的计算机,而不是在云中工作

在任何情况下,当我尝试加载本地文件(本例中为图像)时,都会出现以下错误:

path = 'file:///home/guacamole/Training/sprk/myimage.jpg'
image_df = spark.read.format("image").load(path)

AnalysisException: Path does not exist: file:/home/guacamole/Training/sprk/myimage.jpg;

查看类似的问题,我看到有人指出,必须添加
文件://
,以指定它是本地文件。不确定我在这里遗漏了什么或做错了什么。

您需要用反斜杠而不是普通斜杠来写路径,
文件://
不应该在那里,所以只需使用:
path='\\home\\guacamole\\Training\\sprk\\myimage.jpg'
。 如果图像位于不同的目录中,只需输入完整路径,但使用2倍反斜杠。
(在python中,“\”用于中和/删除其后面的字符的函数,因此如果编写一个反斜杠,则整个路径将是一个随机文本,但如果使用两个反斜杠,第一个反斜杠不会显示为它只是一个中和器,而第二个反斜杠从其函数中被中和后,它不会删除后面的字符).

您不需要指定
文件://
。我想那是给databricks的
/home/guacamole/Training/sprk/myimage.jpg
应该可以。