Dataframe Databricks-FileNotFoundException

Dataframe Databricks-FileNotFoundException,dataframe,pyspark,apache-spark-sql,databricks,Dataframe,Pyspark,Apache Spark Sql,Databricks,我很抱歉,如果这是基本的,我错过了一些简单的。我试图运行下面的代码,遍历文件夹中的文件,并将以特定字符串开头的所有文件合并到一个数据帧中。所有文件都放在湖里 file_list=[] path = "/dbfs/rawdata/2019/01/01/parent/" files = dbutils.fs.ls(path) for file in files: if(file.name.startswith("CW")): file_list.append(file.nam

我很抱歉,如果这是基本的,我错过了一些简单的。我试图运行下面的代码,遍历文件夹中的文件,并将以特定字符串开头的所有文件合并到一个数据帧中。所有文件都放在湖里

file_list=[]
path = "/dbfs/rawdata/2019/01/01/parent/"
files  = dbutils.fs.ls(path)
for file in files:
    if(file.name.startswith("CW")):
       file_list.append(file.name)
df = spark.read.load(path=file_list)

# check point
print("Shape: ", df.count(),"," , len(df.columns))
db.printSchema()
我觉得这很好,但显然这里出了点问题。我在这行上遇到一个错误:
files=dbutils.fs.ls(路径)

错误消息如下:

java.io.FileNotFoundException: File/6199764716474501/dbfs/rawdata/2019/01/01/parent does not exist.

路径、文件和其他一切都肯定存在。我尝试了使用和不使用“dbfs”部分。这可能是许可问题吗?还有别的吗?我在谷歌上搜索一个解决方案。还是不能用这个来牵引

确保您有一个名为“dbfs”的文件夹,如果父文件夹从“rawdata”开始,则路径应为“/rawdata/2019/01/01/parent”或“rawdata/2019/01/01/parent”


如果路径不正确,则会抛出错误。

在发布问题之前,我实际上已经尝试过了。一定还有什么我看不见的。公开了一个端点和一个URL,但我认为它们不属于这里。谢谢。@asher,你为什么不把路径设为“/“看看你是否看到了这个文件夹,并一次添加一个文件夹!我刚刚尝试了这个,得到了这个:org.apache.spark.sql.AnalysisException:无法推断拼花地板的模式。它必须手动指定;然后,如果我尝试这个'/rawdata/'或这个'rawdata/',我会立即得到我最初遇到的相同错误。@asher,如果你仍然有。”如果在dbfs路径中列出文件时出现问题,可能添加dbutils.fs.ls(“/”)的响应会有所帮助。如果文件类型为Parquet,则应该在文件本身中包含架构。如果不是,请在load命令中指定格式和架构。注意,如果未指定格式,load命令将假定文件为Parquet。