Apache spark PySpark/DataBricks：如何使用'；文件：//'；而不是'；dbfs'；_Apache Spark_Pyspark_Databricks

Apache spark PySpark/DataBricks：如何使用'；文件：//'；而不是'；dbfs'；

apache-spark pyspark

Apache spark PySpark/DataBricks：如何使用'；文件：//'；而不是'；dbfs'；,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我试图以不同的方式使用petastorm，这要求我通过以下方式之一告诉它我的拼花地板文件存储在哪里： hdfs://some_hdfs_cluster/user/yevgeni/parquet8，或file:///tmp/mydataset，或s3://bucket/mydataset，或gs://bucket/mydataset。由于我在DataBricks上，并且有其他限制，所以我的选择是使用文件：//选项但是，我不知道如何指定拼花文件的位置。我不断被拒绝，说路径不存在：以下是我正在做的

我试图以不同的方式使用

petastorm

，这要求我通过以下方式之一告诉它我的拼花地板文件存储在哪里：

hdfs://some_hdfs_cluster/user/yevgeni/parquet8

，或

file:///tmp/mydataset

，或

s3://bucket/mydataset

，或

gs://bucket/mydataset

。由于我在DataBricks上，并且有其他限制，所以我的选择是使用

文件：//

选项

但是，我不知道如何指定拼花文件的位置。我不断被拒绝，说路径不存在：

以下是我正在做的：使用来自文件结构的基本数据帧加载进行测试时，如下所示：

df1 = spark.read.option("header", "true").parquet('file:///mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')```

我获取的文件不存在。

您只需按原样指定路径，不需要“file://”：

df1 = spark.read.option("header", "true").parquet('/mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')

如果这不起作用，请尝试中的方法。您只需按原样指定路径，无需使用“file://”：

df1 = spark.read.option("header", "true").parquet('/mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')

如果这不起作用，请尝试

中的方法，只是想知道如果删除“file://”或使用“dbfs://”会发生什么？只是想知道如果删除“file://”或使用“dbfs://”会发生什么？谢谢，这确实起作用，但Petastorm仍然不喜欢。你给我的链接，除了你的评论，确实帮助我更进一步，我非常感谢！谢谢，这样做确实有效，但Petastorm仍然不喜欢。你给我的链接，除了你的评论，确实帮助我更进一步，我非常感谢！

df1 = spark.read.option("header", "true").parquet('file:///mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')```

df1 = spark.read.option("header", "true").parquet('/mnt/team01/assembled_train/part-00000-tid-2150262571233317067-79e6b077-3770-47a9-9fec-155a412768f1-1035357-1-c000.snappy.parquet')