Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用spark Streaming filestream流式处理pdf文件_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark 使用spark Streaming filestream流式处理pdf文件

Apache spark 使用spark Streaming filestream流式处理pdf文件,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在构建一个应用程序,可以扫描pdf文件并从中提取数据 我已经构建了一个应用程序,它使用spark core进行批处理,但现在我希望数据能够从目录中连续传输 如何使用spark streaming filestream方法从目录中读取pdf文件 这个目录应该是hdfs目录吗 提前感谢。请发布您尝试过的选项的示例代码!这是为了了解您当前使用的api,并提供相应的建议。@PraveenKumar我使用的是spark 1.6.2,我认为没有必要发布示例代码,因为它与我的问题无关。@fadyzohdy

我正在构建一个应用程序,可以扫描pdf文件并从中提取数据

我已经构建了一个应用程序,它使用spark core进行批处理,但现在我希望数据能够从目录中连续传输

如何使用spark streaming filestream方法从目录中读取pdf文件

这个目录应该是hdfs目录吗


提前感谢。

请发布您尝试过的选项的示例代码!这是为了了解您当前使用的api,并提供相应的建议。@PraveenKumar我使用的是spark 1.6.2,我认为没有必要发布示例代码,因为它与我的问题无关。@fadyzohdy,您找到解决方案了吗?如果是这样,你能分享一下这个想法吗。我也有类似的要求,但对于ORC文件。