Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/perl/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Perl 索引PDF文件并生成关键字摘要_Perl_Pdf_Indexing_Swish - Fatal编程技术网

Perl 索引PDF文件并生成关键字摘要

Perl 索引PDF文件并生成关键字摘要,perl,pdf,indexing,swish,Perl,Pdf,Indexing,Swish,我的本地文件系统中有大量PDF文件,我将其用作文档库,我想创建这些文件的索引。 我想: 解析PDF文件的内容以获取关键字 选择最相关的关键字进行总结 为某些关键字创建静态HTML页面,并将条目链接到相应的文件 我的问题是: 是否存在执行整个作业的现有工具? 解析PDF文件内容、过滤(按字数)和计算字数的最合适工具是什么? >强>我考虑使用 Perl < /C> >代码> SWIS-E , PDFGRP

我的本地文件系统中有大量PDF文件,我将其用作文档库,我想创建这些文件的索引。 我想:

  • 解析PDF文件的内容以获取关键字
  • 选择最相关的关键字进行总结
  • 为某些关键字创建静态HTML页面,并将条目链接到相应的文件
  • 我的问题是:

    • 是否存在执行整个作业的现有工具?
    • 解析PDF文件内容、过滤(按字数)和计算字数的最合适工具是什么?
    • >强>我考虑使用<代码> Perl < /C> >代码> SWIS-E ,<代码> PDFGRP<<代码>编写脚本。您知道其他有用的工具吗?
    鉴于第2点和第3点似乎是定制的,我建议您使用自己的脚本,使用其中的工具解析pdf,根据需要处理其输出,并编写HTML(可能使用其他工具)

    Perl非常适合这样做,因为它在处理您需要的文件方面表现出色,并且还通过模块提供对各种文件格式的支持

    至于阅读
    pdf
    ,如果您的需求不太详细,这里有一些选项

    • 使用(和)或模块

    • 使用库中的
      pdftotext
      (可能在
      poppler utils
      包中)

    • 使用带有
      -xml
      选项的
      pdftohtml
      ,使用或读取生成的简单xml文件

    最后两个是通过Perl的内置工具(如
    system
    )使用的外部工具

    下面的文本处理用于构建摘要和设计输出,这正是Perl等语言的用途。上面提到的两个任务需要几行代码

    然后写出HTML,如果简单,可以直接写出,也可以使用合适的模块写出。考虑到你的目的,你可能想调查一下。例如,另请参见

    完全解析PDF可能不可行,但如果文件不太复杂,它应该可以工作


    如果您选择关键字和构建统计信息的过程相当常见,那么有集成的文档管理工具(搜索书目管理器)。但是,我认为他们中的大多数人都求助于外部工具来解析
    pdf
    ,因此您最好还是使用自己的脚本。

    看看@JeanJouX,让我知道更多细节是否有用。例如,我可以发布(几行)示例代码,生成一个单词列表,对它们进行过滤和计数。