如何计算PDF中的总字数？_Pdf_Ms Word_Itextsharp_Acrobat_Acrobat Sdk

如何计算PDF中的总字数？

pdf ms-word

如何计算PDF中的总字数？,pdf,ms-word,itextsharp,acrobat,acrobat-sdk,Pdf,Ms Word,Itextsharp,Acrobat,Acrobat Sdk,我使用Adobe Acrobat javascript内置函数getPageNumWords（）返回指定页面中的字数，但当我将文本内容从PDF文件复制并粘贴到MS Word时，MS Word给出的字数略有不同，所以有人知道Acrobat在哪个方面计算字数吗哪些单词计数结果是正确的是与Acrobat文字计数结果还是MS文字计数结果一致但是我想计算PDF文件中的总字数（我的输入是PDF文件），否则我可以使用iText吗使用iText在PDf中计算字数是可能的？谁和为什么给我-1票？请评论我的

我使用Adobe Acrobat javascript内置函数getPageNumWords（）返回指定页面中的字数，但当我将文本内容从PDF文件复制并粘贴到MS Word时，MS Word给出的字数略有不同，所以有人知道Acrobat在哪个方面计算字数吗

哪些单词计数结果是正确的

是与Acrobat文字计数结果还是MS文字计数结果一致

但是我想计算PDF文件中的总字数（我的输入是PDF文件），否则我可以使用iText吗

使用iText在PDf中计算字数是可能的？

谁和为什么给我-1票？请评论我的问题有什么错？你的统计数字不同的原因是PDF实际上没有任何“单词”的概念。相反，Acrobat寻找彼此靠近的角色，只是猜测这些是“单词”。此外，页脚中的页码是否为“文字”？PDF实际上没有页脚，但Adobe可能有一些聪明的想法，认为应该忽略这些页脚。标题也一样。列表中的数字标题？PDF也没有这些。查看这篇文章，了解iTextSharp@Chris Haas中一个非常简单的计算单词的版本，不，不，我的PDF也不包含任何页眉、页脚和页码，它只包含简单的纯文本，不管我如何理解，我想做一些额外的工作来计算单词的数量，谢谢你的有用链接，与Acrobat iText相比，Acrobat iText可以在短时间内（快速）从PDF中提取文本内容，因此我选择了iText。“单词”本质上是一系列看起来属于一起的字符（通过具有相同的距离，或通过其边界框相接触）。我已经看到，角质已经可以做一个字符串，我们会认为是一个词变成两个杂技演员“词”。getPageNthWord（）方法中有一个选项，该选项考虑字符串后面的非字母数字字符，但对您的情况没有多大帮助。因此，如果你能正确地导出文本，你可以沿着这条路走下去。PDF中的单词以空格形式绘制，可能与多个单字母“单词”无法区分。