Apache spark 使用spark Streaming filestream流式处理pdf文件_Apache Spark_Spark Streaming

Apache spark 使用spark Streaming filestream流式处理pdf文件

apache-spark

Apache spark 使用spark Streaming filestream流式处理pdf文件,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在构建一个应用程序，可以扫描pdf文件并从中提取数据我已经构建了一个应用程序，它使用spark core进行批处理，但现在我希望数据能够从目录中连续传输如何使用spark streaming filestream方法从目录中读取pdf文件这个目录应该是hdfs目录吗提前感谢。请发布您尝试过的选项的示例代码！这是为了了解您当前使用的api，并提供相应的建议。@PraveenKumar我使用的是spark 1.6.2，我认为没有必要发布示例代码，因为它与我的问题无关。@fadyzohdy

我正在构建一个应用程序，可以扫描pdf文件并从中提取数据

我已经构建了一个应用程序，它使用spark core进行批处理，但现在我希望数据能够从目录中连续传输

如何使用spark streaming filestream方法从目录中读取pdf文件

提前感谢。

请发布您尝试过的选项的示例代码！这是为了了解您当前使用的api，并提供相应的建议。@PraveenKumar我使用的是spark 1.6.2，我认为没有必要发布示例代码，因为它与我的问题无关。@fadyzohdy，您找到解决方案了吗？如果是这样，你能分享一下这个想法吗。我也有类似的要求，但对于ORC文件。