Java 是否有任何Bigdata工具来处理pdf文档_Java_Pdf_Hadoop_Bigdata

Java 是否有任何Bigdata工具来处理pdf文档

java pdf hadoop

Java 是否有任何Bigdata工具来处理pdf文档,java,pdf,hadoop,bigdata,Java,Pdf,Hadoop,Bigdata,我必须处理PDF文档。 Bigdata中是否有任何工具可以处理我的pdf文档半结构化数据？？例如如果我的PDF文档包含任何主题，如摘要或行动，我必须检索这些段落而不带任何页脚。现在我正在使用pdfBox和java API来提取我的pdf文档，但是否有任何bigdata工具可用于进行相同的提取？？？我不知道有什么工具可以完成您想要做的事情，但是如果您对设置Hadoop群集或使用Amazon AWS服务满意，然后，您可以轻松地使用Hadoop流媒体通过用户定义的程序传递PDF文档，java中的

我必须处理PDF文档。 Bigdata中是否有任何工具可以处理我的pdf文档半结构化数据？？例如如果我的PDF文档包含任何主题，如摘要或行动，我必须检索这些段落而不带任何页脚。

现在我正在使用pdfBox和java API来提取我的pdf文档，但是否有任何bigdata工具可用于进行相同的提取？？？

我不知道有什么工具可以完成您想要做的事情，但是如果您对设置Hadoop群集或使用Amazon AWS服务满意，然后，您可以轻松地使用Hadoop流媒体通过用户定义的程序传递PDF文档，java中的程序应该可以正常工作

有一个很好的例子说明了如何将Hadoop流与中的自定义Java程序一起使用