解析pdf并识别短语所在的页面

解析pdf并识别短语所在的页面,pdf,parsing,Pdf,Parsing,我想以编程方式解析pdf文件,查找某些短语并找出每个短语所在的页码。这可能吗(我知道pdf不像文本文件)?那么,有没有库可以提供帮助呢?ApacheTika,您可以在上找到,包括PDFBox,它将从您可以使用它的地方提取文本。您尝试使用哪种语言和平台?

我想以编程方式解析pdf文件,查找某些短语并找出每个短语所在的页码。这可能吗(我知道pdf不像文本文件)?那么,有没有库可以提供帮助呢?

ApacheTika,您可以在上找到,包括PDFBox,它将从您可以使用它的地方提取文本。

您尝试使用哪种语言和平台?