Python 如何为PDF文件编制索引并搜索关键字?
我拥有的是一堆PDF文件(只有几个100)。它们没有适当的结构,也没有特定的字段。他们只有大量的文本 我想做什么: 索引PDF并根据索引搜索一些关键字。 我感兴趣的是查找PDF文档中是否存在该特定关键字,如果存在,我希望找到该关键字所在的行。 如果我在PDF文档中搜索“谷歌”这个词,我希望看到“谷歌是一个伟大的搜索引擎”,这是PDF中的一行 我决定怎么做: 可以使用SOLR,也可以使用Whoosh,但SOLR在内置PDF支持方面看起来不错。我更喜欢用Python编写代码,Sunburst是我喜欢的SOLR上的包装器。 SOLR的示例项目有一些基于价格比较的模式文件。现在我不确定是否可以使用SOLR来回答我的问题Python 如何为PDF文件编制索引并搜索关键字?,python,pdf,indexing,solr,Python,Pdf,Indexing,Solr,我拥有的是一堆PDF文件(只有几个100)。它们没有适当的结构,也没有特定的字段。他们只有大量的文本 我想做什么: 索引PDF并根据索引搜索一些关键字。 我感兴趣的是查找PDF文档中是否存在该特定关键字,如果存在,我希望找到该关键字所在的行。 如果我在PDF文档中搜索“谷歌”这个词,我希望看到“谷歌是一个伟大的搜索引擎”,这是PDF中的一行 我决定怎么做: 可以使用SOLR,也可以使用Whoosh,但SOLR在内置PDF支持方面看起来不错。我更喜欢用Python编写代码,Sunburst是我喜欢
你们有什么建议?非常感谢您的任何意见。我认为Solr适合您的需要 “突出显示”功能正是您需要的。。为此,您必须编制索引并将文档存储在lucene索引中 突出显示功能返回一个被剪断的文本,其中搜索的文本被标记
看看这个:我曾经解决了这个问题,通过将PDF文件转换为文本,并使用实用程序作为
pdftotext
(pdftohtml
我猜也可以),生成某种类型的“缓存”。然后使用一些grep
我在文本文件缓存中搜索关键字
这与您建议的解决方案略有不同,但我可以想象您也可以从Python中调用它。另一个脱机/独立解决方案:
- 它使用PDFBox和apachelucene,并将为找到的每个关键字创建一个HTML索引文件,其中包含指向PDF文件中页面的链接