Apache spark PySpark/DataBricks:如何使用';文件://';而不是';dbfs';

Apache spark PySpark/DataBricks:如何使用';文件://';而不是';dbfs';,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我试图以不同的方式使用petastorm,这要求我通过以下方式之一告诉它我的拼花地板文件存储在哪里: hdfs://some_hdfs_cluster/user/yevgeni/parquet8,或file:///tmp/mydataset,或s3://bucket/mydataset,或gs://bucket/mydataset。由于我在DataBricks上,并且有其他限制,所以我的选择是使用文件://选项 但是,我不知道如何指定拼花文件的位置。我不断被拒绝,说路径不存在: 以下是我正在做的

我试图以不同的方式使用
petastorm
,这要求我通过以下方式之一告诉它我的拼花地板文件存储在哪里:

hdfs://some_hdfs_cluster/user/yevgeni/parquet8
,或
file:///tmp/mydataset
,或
s3://bucket/mydataset
,或
gs://bucket/mydataset
。由于我在DataBricks上,并且有其他限制,所以我的选择是使用
文件://
选项

但是,我不知道如何指定拼花文件的位置。我不断被拒绝,说路径不存在:

以下是我正在做的: 使用来自文件结构的基本数据帧加载进行测试时,如下所示:

df1 = spark.read.option("header", "true").parquet('file:///mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')```

我获取的文件不存在。

您只需按原样指定路径,不需要“file://”:

df1 = spark.read.option("header", "true").parquet('/mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')

如果这不起作用,请尝试中的方法。您只需按原样指定路径,无需使用“file://”:

df1 = spark.read.option("header", "true").parquet('/mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')

如果这不起作用,请尝试

中的方法,只是想知道如果删除“file://”或使用“dbfs://”会发生什么?只是想知道如果删除“file://”或使用“dbfs://”会发生什么?谢谢,这确实起作用,但Petastorm仍然不喜欢。你给我的链接,除了你的评论,确实帮助我更进一步,我非常感谢!谢谢,这样做确实有效,但Petastorm仍然不喜欢。你给我的链接,除了你的评论,确实帮助我更进一步,我非常感谢!
df1 = spark.read.option("header", "true").parquet('file:///mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')```
df1 = spark.read.option("header", "true").parquet('/mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')