Dataframe Databricks-FileNotFoundException_Dataframe_Pyspark_Apache Spark Sql_Databricks

Dataframe Databricks-FileNotFoundException

dataframe pyspark

Dataframe Databricks-FileNotFoundException,dataframe,pyspark,apache-spark-sql,databricks,Dataframe,Pyspark,Apache Spark Sql,Databricks,我很抱歉，如果这是基本的，我错过了一些简单的。我试图运行下面的代码，遍历文件夹中的文件，并将以特定字符串开头的所有文件合并到一个数据帧中。所有文件都放在湖里 file_list=[] path = "/dbfs/rawdata/2019/01/01/parent/" files = dbutils.fs.ls(path) for file in files: if(file.name.startswith("CW")): file_list.append(file.nam

我很抱歉，如果这是基本的，我错过了一些简单的。我试图运行下面的代码，遍历文件夹中的文件，并将以特定字符串开头的所有文件合并到一个数据帧中。所有文件都放在湖里

file_list=[]
path = "/dbfs/rawdata/2019/01/01/parent/"
files  = dbutils.fs.ls(path)
for file in files:
    if(file.name.startswith("CW")):
       file_list.append(file.name)
df = spark.read.load(path=file_list)

# check point
print("Shape: ", df.count(),"," , len(df.columns))
db.printSchema()

我觉得这很好，但显然这里出了点问题。我在这行上遇到一个错误：

files=dbutils.fs.ls（路径）

错误消息如下：

java.io.FileNotFoundException: File/6199764716474501/dbfs/rawdata/2019/01/01/parent does not exist.

路径、文件和其他一切都肯定存在。我尝试了使用和不使用“dbfs”部分。这可能是许可问题吗？还有别的吗？我在谷歌上搜索一个解决方案。还是不能用这个来牵引

确保您有一个名为“dbfs”的文件夹，如果父文件夹从“rawdata”开始，则路径应为“/rawdata/2019/01/01/parent”或“rawdata/2019/01/01/parent”

如果路径不正确，则会抛出错误。

在发布问题之前，我实际上已经尝试过了。一定还有什么我看不见的。公开了一个端点和一个URL，但我认为它们不属于这里。谢谢。@asher，你为什么不把路径设为“/“看看你是否看到了这个文件夹，并一次添加一个文件夹！我刚刚尝试了这个，得到了这个：org.apache.spark.sql.AnalysisException:无法推断拼花地板的模式。它必须手动指定；然后，如果我尝试这个'/rawdata/'或这个'rawdata/'，我会立即得到我最初遇到的相同错误。@asher，如果你仍然有。”如果在dbfs路径中列出文件时出现问题，可能添加dbutils.fs.ls（“/”）的响应会有所帮助。如果文件类型为Parquet，则应该在文件本身中包含架构。如果不是，请在load命令中指定格式和架构。注意，如果未指定格式，load命令将假定文件为Parquet。