Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala Spark数据帧齐柏林飞艇读取文件夹_Scala_Dataframe_Apache Spark Sql_Apache Zeppelin - Fatal编程技术网

Scala Spark数据帧齐柏林飞艇读取文件夹

Scala Spark数据帧齐柏林飞艇读取文件夹,scala,dataframe,apache-spark-sql,apache-zeppelin,Scala,Dataframe,Apache Spark Sql,Apache Zeppelin,我在Scala中使用google storage和Zeppelin,我可以使用下一个查询加载所有json文件 sqlContext.read.json("gs://myBucket/*/jsonfile.json") 我的数据被组织成小块,每个小块在myBucket中都有自己的文件夹。在chunk文件夹中,我得到了与该chunk相关的文件 jsonfile.json 其他数据 moreJsons.json 我想在不同的进程/任务中获取所有文件夹路径和进程。。。 所以我可以做这样的事情: i

我在Scala中使用google storage和Zeppelin,我可以使用下一个查询加载所有json文件

sqlContext.read.json("gs://myBucket/*/jsonfile.json")
我的数据被组织成小块,每个小块在
myBucket
中都有自己的文件夹。在chunk文件夹中,我得到了与该chunk相关的文件

  • jsonfile.json
  • 其他数据
  • moreJsons.json
我想在不同的进程/任务中获取所有文件夹路径和进程。。。 所以我可以做这样的事情:

if(isJson){
    sqlContext.read.json("gs://myBucket/chunkId/jsonfile.json")
}
在这个例子中,我知道chank路径:
chunkId
,并且,我得到了一些关于`isJson'的内部逻辑


这就是我所需要的(我希望它有多清晰…),我的问题是:如何在不读取文件内容的情况下获得文件夹列表?Spark没有用于列出文件的内置机制。你可以使用任何你想做的机制。例如,如果通过Hadoop文件系统映射Google存储,则可以使用Hadoop API。使用您的集群实现快速宽度优先的文件遍历,例如,类似于下面的内容,我们使用它来完成快速的临时任务


Spark没有用于列出文件的内置机制。你可以使用任何你想做的机制。例如,如果通过Hadoop文件系统映射Google存储,则可以使用Hadoop API。使用您的集群实现快速宽度优先的文件遍历,例如,类似于下面的内容,我们使用它来完成快速的临时任务