Perl 索引PDF文件并生成关键字摘要
我的本地文件系统中有大量PDF文件,我将其用作文档库,我想创建这些文件的索引。 我想:Perl 索引PDF文件并生成关键字摘要,perl,pdf,indexing,swish,Perl,Pdf,Indexing,Swish,我的本地文件系统中有大量PDF文件,我将其用作文档库,我想创建这些文件的索引。 我想: 解析PDF文件的内容以获取关键字 选择最相关的关键字进行总结 为某些关键字创建静态HTML页面,并将条目链接到相应的文件 我的问题是: 是否存在执行整个作业的现有工具? 解析PDF文件内容、过滤(按字数)和计算字数的最合适工具是什么? >强>我考虑使用 Perl < /C> >代码> SWIS-E , PDFGRP
- 是否存在执行整个作业的现有工具?
- 解析PDF文件内容、过滤(按字数)和计算字数的最合适工具是什么?
pdf
,如果您的需求不太详细,这里有一些选项
- 使用(和)或模块
- 使用库中的
(可能在pdftotext
包中)poppler utils
- 使用带有
选项的-xml
,使用或读取生成的简单xml文件pdftohtml
system
)使用的外部工具
下面的文本处理用于构建摘要和设计输出,这正是Perl等语言的用途。上面提到的两个任务需要几行代码
然后写出HTML,如果简单,可以直接写出,也可以使用合适的模块写出。考虑到你的目的,你可能想调查一下。例如,另请参见
完全解析PDF可能不可行,但如果文件不太复杂,它应该可以工作
如果您选择关键字和构建统计信息的过程相当常见,那么有集成的文档管理工具(搜索书目管理器)。但是,我认为他们中的大多数人都求助于外部工具来解析
pdf
,因此您最好还是使用自己的脚本。看看@JeanJouX,让我知道更多细节是否有用。例如,我可以发布(几行)示例代码,生成一个单词列表,对它们进行过滤和计数。