Python PyPDF2在读取pdf时创建非字母数字字符_Python_Pdf

Python PyPDF2在读取pdf时创建非字母数字字符

python pdf

Python PyPDF2在读取pdf时创建非字母数字字符,python,pdf,Python,Pdf,我正在使用该软件包阅读PDF文件。但是，当它读取PDF文件时，会出现许多原始PDF文件中不存在的非字母数字字符例如，我在pdf中有行 PDF精确复制和粘贴：事实证明，这一年比预期的更令人困惑。但这也让我越来越相信大量病例为假以下内容：我理解新行的\n名称。那很好。但是为什么会有像˝和˛这样的角色呢是否还有另一个参数需要与PyPDF2.PdfFileReader一起使用，以便在没有这些额外字符的情况下正确读取文件我知道我以后可以使用正则表达式来去除这些特殊字符，但我更喜欢在没有它们的

我正在使用该软件包阅读PDF文件。但是，当它读取PDF文件时，会出现许多原始PDF文件中不存在的非字母数字字符

例如，我在pdf中有行

PDF精确复制和粘贴：

事实证明，这一年比预期的更令人困惑。但这也让我越来越相信大量病例为假

以下内容：

我理解新行的\n名称。那很好。但是为什么会有像˝和˛这样的角色呢

是否还有另一个参数需要与PyPDF2.PdfFileReader一起使用，以便在没有这些额外字符的情况下正确读取文件

我知道我以后可以使用正则表达式来去除这些特殊字符，但我更喜欢在没有它们的情况下读取文件。这种情况尤其糟糕，因为有时单词的某些部分会被这些特殊字符替换；在上面的例子中，我们看到单词变成了˝e，如果我想解析这个文本并获得字数等，这是不好的。如果特殊字符只是出现在标点符号的位置，这将是好的，但它似乎没有遵循这种逻辑-特殊字符只是出现在随机的地方

或者，我是否可以为Python3.6使用另一个包来读取PDF文件textract似乎只适用于Python2.x？

如果没有正在解析的PDF示例，很难说为什么会出现奇怪的字符。我在Python3.x中使用PyPDF2时也遇到了问题。我发现自己在大多数与PDF相关的任务中都表现出色。您可以尝试使用它来查看在文本提取期间是否具有相同的字符

import PyPDF2
pdfFileObj = open("file.pdf","rb")
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(1)
pageObj.extractText()
>>> '˝e year has actually turned out to be more confusing than expected. 
 But it also leaves me increasingly convinced that a 
 \nsigni˜cant num˛ber of cases were false.'