解析pdf并识别短语所在的页面_Pdf_Parsing

解析pdf并识别短语所在的页面

pdf parsing

解析pdf并识别短语所在的页面,pdf,parsing,Pdf,Parsing,我想以编程方式解析pdf文件，查找某些短语并找出每个短语所在的页码。这可能吗（我知道pdf不像文本文件）？那么，有没有库可以提供帮助呢？ApacheTika，您可以在上找到，包括PDFBox，它将从您可以使用它的地方提取文本。您尝试使用哪种语言和平台？

我想以编程方式解析pdf文件，查找某些短语并找出每个短语所在的页码。这可能吗（我知道pdf不像文本文件）？那么，有没有库可以提供帮助呢？

ApacheTika，您可以在上找到，包括PDFBox，它将从您可以使用它的地方提取文本。

您尝试使用哪种语言和平台？