特定单词后的pdf单词计数

特定单词后的pdf单词计数,pdf,word-count,Pdf,Word Count,我有多个pdf文件,我需要在文本中出现特定标题或单词后计算单词数。例如,给定的标题显示在2页文档的第二页顶部,然后只计算第2页上的单词。您知道现有的字数统计程序是否已经包含了这样的功能 非常感谢你的帮助 Chris如果您正在寻找命令行自动化,那么 您需要先使用以下命令将PDF转换为文本文件: $pdftotext transcript.pdf 然后使用[wc][2]实用程序计算字数: $wc-w transcript.txt “单词”的概念不是PDF规范的一部分,因此,充其量您的结果可能会有偏差

我有多个pdf文件,我需要在文本中出现特定标题或单词后计算单词数。例如,给定的标题显示在2页文档的第二页顶部,然后只计算第2页上的单词。您知道现有的字数统计程序是否已经包含了这样的功能

非常感谢你的帮助


Chris

如果您正在寻找命令行自动化,那么

  • 您需要先使用以下命令将PDF转换为文本文件:

    $pdftotext transcript.pdf

  • 然后使用
    [wc][2]
    实用程序计算字数:

    $wc-w transcript.txt


  • “单词”的概念不是PDF规范的一部分,因此,充其量您的结果可能会有偏差。在最坏的情况下,你根本不会得到任何单词。你想用哪种编程语言来实现这一点?您需要一个PDF库,可以进行文本提取,然后在提取文本后进行字数计算。这是假设您的PDF文件没有做任何令人讨厌的事情。我不想详细说明,但如果PDF中包含一些看起来像文本的内容,但实际上在尝试提取时会有很多乱七八糟的内容,这是非常有效的。如果您共享您的PDF文件,人们将能够告诉您文本提取是否容易。感谢您的回复!基本上,pdf文件包含电话记录。没有图形或其他图形内容,只有文本。可以从pdf文件中选择和复制文本,因此不需要OCR。要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题因堆栈溢出而脱离主题,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,请描述问题以及迄今为止为解决问题所做的工作。