如何计算PDF中的总字数?

如何计算PDF中的总字数?,pdf,ms-word,itextsharp,acrobat,acrobat-sdk,Pdf,Ms Word,Itextsharp,Acrobat,Acrobat Sdk,我使用Adobe Acrobat javascript内置函数getPageNumWords()返回指定页面中的字数,但当我将文本内容从PDF文件复制并粘贴到MS Word时,MS Word给出的字数略有不同,所以有人知道Acrobat在哪个方面计算字数吗 哪些单词计数结果是正确的 是与Acrobat文字计数结果还是MS文字计数结果一致 但是我想计算PDF文件中的总字数(我的输入是PDF文件),否则我可以使用iText吗 使用iText在PDf中计算字数是可能的?谁和为什么给我-1票?请评论我的

我使用Adobe Acrobat javascript内置函数getPageNumWords()返回指定页面中的字数,但当我将文本内容从PDF文件复制并粘贴到MS Word时,MS Word给出的字数略有不同,所以有人知道Acrobat在哪个方面计算字数吗

哪些单词计数结果是正确的

是与Acrobat文字计数结果还是MS文字计数结果一致

但是我想计算PDF文件中的总字数(我的输入是PDF文件),否则我可以使用iText吗


使用iText在PDf中计算字数是可能的?

谁和为什么给我-1票?请评论我的问题有什么错?你的统计数字不同的原因是PDF实际上没有任何“单词”的概念。相反,Acrobat寻找彼此靠近的角色,只是猜测这些是“单词”。此外,页脚中的页码是否为“文字”?PDF实际上没有页脚,但Adobe可能有一些聪明的想法,认为应该忽略这些页脚。标题也一样。列表中的数字标题?PDF也没有这些。查看这篇文章,了解iTextSharp@Chris Haas中一个非常简单的计算单词的版本,不,不,我的PDF也不包含任何页眉、页脚和页码,它只包含简单的纯文本,不管我如何理解,我想做一些额外的工作来计算单词的数量,谢谢你的有用链接,与Acrobat iText相比,Acrobat iText可以在短时间内(快速)从PDF中提取文本内容,因此我选择了iText。“单词”本质上是一系列看起来属于一起的字符(通过具有相同的距离,或通过其边界框相接触)。我已经看到,角质已经可以做一个字符串,我们会认为是一个词变成两个杂技演员“词”。getPageNthWord()方法中有一个选项,该选项考虑字符串后面的非字母数字字符,但对您的情况没有多大帮助。因此,如果你能正确地导出文本,你可以沿着这条路走下去。PDF中的单词以空格形式绘制,可能与多个单字母“单词”无法区分。