Scala Spark数据帧齐柏林飞艇读取文件夹_Scala_Dataframe_Apache Spark Sql_Apache Zeppelin

Scala Spark数据帧齐柏林飞艇读取文件夹

scala dataframe

Scala Spark数据帧齐柏林飞艇读取文件夹,scala,dataframe,apache-spark-sql,apache-zeppelin,Scala,Dataframe,Apache Spark Sql,Apache Zeppelin,我在Scala中使用google storage和Zeppelin，我可以使用下一个查询加载所有json文件 sqlContext.read.json("gs://myBucket/*/jsonfile.json") 我的数据被组织成小块，每个小块在myBucket中都有自己的文件夹。在chunk文件夹中，我得到了与该chunk相关的文件 jsonfile.json 其他数据 moreJsons.json 我想在不同的进程/任务中获取所有文件夹路径和进程。。。所以我可以做这样的事情： i

我在Scala中使用google storage和Zeppelin，我可以使用下一个查询加载所有json文件

sqlContext.read.json("gs://myBucket/*/jsonfile.json")

我的数据被组织成小块，每个小块在

myBucket

中都有自己的文件夹。在chunk文件夹中，我得到了与该chunk相关的文件

jsonfile.json
其他数据
moreJsons.json

我想在不同的进程/任务中获取所有文件夹路径和进程。。。所以我可以做这样的事情：

if(isJson){
    sqlContext.read.json("gs://myBucket/chunkId/jsonfile.json")
}

在这个例子中，我知道chank路径：

chunkId

，并且，我得到了一些关于`isJson'的内部逻辑

这就是我所需要的（我希望它有多清晰…），我的问题是：如何在不读取文件内容的情况下获得文件夹列表？Spark没有用于列出文件的内置机制。你可以使用任何你想做的机制。例如，如果通过Hadoop文件系统映射Google存储，则可以使用Hadoop API。使用您的集群实现快速宽度优先的文件遍历，例如，类似于下面的内容，我们使用它来完成快速的临时任务

Spark没有用于列出文件的内置机制。你可以使用任何你想做的机制。例如，如果通过Hadoop文件系统映射Google存储，则可以使用Hadoop API。使用您的集群实现快速宽度优先的文件遍历，例如，类似于下面的内容，我们使用它来完成快速的临时任务