Amazon s3 来自多个文件夹的Spark流媒体

Amazon s3 来自多个文件夹的Spark流媒体,amazon-s3,apache-spark,spark-streaming,Amazon S3,Apache Spark,Spark Streaming,我问了完全相同的问题。我无法在那里发表评论,因为我在stackoverflow没有足够的声誉。所以我要贴一份副本。不确定是否有办法解决 这里给出的答案不起作用。textFileStream()不接受逗号分隔的文件夹列表 16/02/24 11:01:40 WARN FileInputDStream: Error finding new files java.io.FileNotFoundException: File file:/shared/data/2016-01-22-05/,file:/

我问了完全相同的问题。我无法在那里发表评论,因为我在stackoverflow没有足够的声誉。所以我要贴一份副本。不确定是否有办法解决

这里给出的答案不起作用。textFileStream()不接受逗号分隔的文件夹列表

16/02/24 11:01:40 WARN FileInputDStream: Error finding new files
java.io.FileNotFoundException: File file:/shared/data/2016-01-22-05/,file:/shared/data/2016-01-22-06 does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.listStatus(RawLocalFileSystem.java:376)
这就是我目前所拥有的

val folderList = makeAListOfFoldersToWatch()
val dstreamsList = folderList.map(ssc.textFileStream(_))
val lines = ssc.union(dstreamsList)
lines.foreachRDD( rdd => {
此解决方案适用于固定文件夹列表。这里的用例是每小时有YYYY-MM-DD-HH格式的S3文件夹。每小时创建一个新文件夹有没有办法在长时间运行的流媒体作业中保持文件夹列表的更新?有没有其他方法可以解决这个问题