Scala Spark数据帧齐柏林飞艇读取文件夹
我在Scala中使用google storage和Zeppelin,我可以使用下一个查询加载所有json文件Scala Spark数据帧齐柏林飞艇读取文件夹,scala,dataframe,apache-spark-sql,apache-zeppelin,Scala,Dataframe,Apache Spark Sql,Apache Zeppelin,我在Scala中使用google storage和Zeppelin,我可以使用下一个查询加载所有json文件 sqlContext.read.json("gs://myBucket/*/jsonfile.json") 我的数据被组织成小块,每个小块在myBucket中都有自己的文件夹。在chunk文件夹中,我得到了与该chunk相关的文件 jsonfile.json 其他数据 moreJsons.json 我想在不同的进程/任务中获取所有文件夹路径和进程。。。 所以我可以做这样的事情: i
sqlContext.read.json("gs://myBucket/*/jsonfile.json")
我的数据被组织成小块,每个小块在myBucket
中都有自己的文件夹。在chunk文件夹中,我得到了与该chunk相关的文件
- jsonfile.json
- 其他数据
- moreJsons.json
if(isJson){
sqlContext.read.json("gs://myBucket/chunkId/jsonfile.json")
}
在这个例子中,我知道chank路径:chunkId
,并且,我得到了一些关于`isJson'的内部逻辑
这就是我所需要的(我希望它有多清晰…),我的问题是:如何在不读取文件内容的情况下获得文件夹列表?Spark没有用于列出文件的内置机制。你可以使用任何你想做的机制。例如,如果通过Hadoop文件系统映射Google存储,则可以使用Hadoop API。使用您的集群实现快速宽度优先的文件遍历,例如,类似于下面的内容,我们使用它来完成快速的临时任务
Spark没有用于列出文件的内置机制。你可以使用任何你想做的机制。例如,如果通过Hadoop文件系统映射Google存储,则可以使用Hadoop API。使用您的集群实现快速宽度优先的文件遍历,例如,类似于下面的内容,我们使用它来完成快速的临时任务