Search 以编程方式在多个PDF文件中搜索关键字和注释页码

Search 以编程方式在多个PDF文件中搜索关键字和注释页码,search,pdf,Search,Pdf,我在一家博物馆工作,那里有成百上千的科学论文PDF放在一个目录里。我已经用OCR对它们进行了识别,这样就可以在AdobeReader之类的程序中搜索关键词。我需要编写一个程序,允许我在这个目录中搜索一个特定的物种名称,并生成一个匹配关键字和相应页码的文档列表 我正在寻找一个pdf库,我可以完成这项任务,是(希望)免费的。我使用编写了一个小程序,但搜索整个目录中的一个术语大约需要10分钟。我想大大缩短时间,因为Adobe Reader和PDF XchangeViewer可以在一分钟内执行相同的搜索

我在一家博物馆工作,那里有成百上千的科学论文PDF放在一个目录里。我已经用OCR对它们进行了识别,这样就可以在AdobeReader之类的程序中搜索关键词。我需要编写一个程序,允许我在这个目录中搜索一个特定的物种名称,并生成一个匹配关键字和相应页码的文档列表

我正在寻找一个pdf库,我可以完成这项任务,是(希望)免费的。我使用编写了一个小程序,但搜索整个目录中的一个术语大约需要10分钟。我想大大缩短时间,因为Adobe Reader和PDF XchangeViewer可以在一分钟内执行相同的搜索。我不喜欢使用哪种语言


有人能告诉我正确的资源,以便我完成这项任务吗?谢谢。

我建议您评估Apache Solr的使用,它可以非常高效地为PDF文件编制索引