Java 是否有任何Bigdata工具来处理pdf文档

Java 是否有任何Bigdata工具来处理pdf文档,java,pdf,hadoop,bigdata,Java,Pdf,Hadoop,Bigdata,我必须处理PDF文档。 Bigdata中是否有任何工具可以处理我的pdf文档半结构化数据?? 例如 如果我的PDF文档包含任何主题,如摘要或行动,我必须检索这些段落而不带任何页脚。 现在我正在使用pdfBox和java API来提取我的pdf文档,但是否有任何bigdata工具可用于进行相同的提取???我不知道有什么工具可以完成您想要做的事情,但是如果您对设置Hadoop群集或使用Amazon AWS服务满意,然后,您可以轻松地使用Hadoop流媒体通过用户定义的程序传递PDF文档,java中的

我必须处理PDF文档。 Bigdata中是否有任何工具可以处理我的pdf文档半结构化数据?? 例如 如果我的PDF文档包含任何主题,如摘要或行动,我必须检索这些段落而不带任何页脚。
现在我正在使用pdfBox和java API来提取我的pdf文档,但是否有任何bigdata工具可用于进行相同的提取???

我不知道有什么工具可以完成您想要做的事情,但是如果您对设置Hadoop群集或使用Amazon AWS服务满意,然后,您可以轻松地使用Hadoop流媒体通过用户定义的程序传递PDF文档,java中的程序应该可以正常工作

有一个很好的例子说明了如何将Hadoop流与中的自定义Java程序一起使用