Apache spark 使用spark Streaming filestream流式处理pdf文件
我正在构建一个应用程序,可以扫描pdf文件并从中提取数据 我已经构建了一个应用程序,它使用spark core进行批处理,但现在我希望数据能够从目录中连续传输 如何使用spark streaming filestream方法从目录中读取pdf文件 这个目录应该是hdfs目录吗Apache spark 使用spark Streaming filestream流式处理pdf文件,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在构建一个应用程序,可以扫描pdf文件并从中提取数据 我已经构建了一个应用程序,它使用spark core进行批处理,但现在我希望数据能够从目录中连续传输 如何使用spark streaming filestream方法从目录中读取pdf文件 这个目录应该是hdfs目录吗 提前感谢。请发布您尝试过的选项的示例代码!这是为了了解您当前使用的api,并提供相应的建议。@PraveenKumar我使用的是spark 1.6.2,我认为没有必要发布示例代码,因为它与我的问题无关。@fadyzohdy
提前感谢。请发布您尝试过的选项的示例代码!这是为了了解您当前使用的api,并提供相应的建议。@PraveenKumar我使用的是spark 1.6.2,我认为没有必要发布示例代码,因为它与我的问题无关。@fadyzohdy,您找到解决方案了吗?如果是这样,你能分享一下这个想法吗。我也有类似的要求,但对于ORC文件。