Python PyPDF2在读取pdf时创建非字母数字字符

Python PyPDF2在读取pdf时创建非字母数字字符,python,pdf,Python,Pdf,我正在使用该软件包阅读PDF文件。但是,当它读取PDF文件时,会出现许多原始PDF文件中不存在的非字母数字字符 例如,我在pdf中有行 PDF精确复制和粘贴: 事实证明,这一年比预期的更令人困惑。但这也让我越来越相信 大量病例为假 以下内容: 我理解新行的\n名称。那很好。但是为什么会有像˝和˛这样的角色呢 是否还有另一个参数需要与PyPDF2.PdfFileReader一起使用,以便在没有这些额外字符的情况下正确读取文件 我知道我以后可以使用正则表达式来去除这些特殊字符,但我更喜欢在没有它们的

我正在使用该软件包阅读PDF文件。但是,当它读取PDF文件时,会出现许多原始PDF文件中不存在的非字母数字字符

例如,我在pdf中有行

PDF精确复制和粘贴:

事实证明,这一年比预期的更令人困惑。但这也让我越来越相信 大量病例为假

以下内容:

我理解新行的\n名称。那很好。但是为什么会有像˝和˛这样的角色呢

是否还有另一个参数需要与PyPDF2.PdfFileReader一起使用,以便在没有这些额外字符的情况下正确读取文件

我知道我以后可以使用正则表达式来去除这些特殊字符,但我更喜欢在没有它们的情况下读取文件。这种情况尤其糟糕,因为有时单词的某些部分会被这些特殊字符替换;在上面的例子中,我们看到单词变成了˝e,如果我想解析这个文本并获得字数等,这是不好的。如果特殊字符只是出现在标点符号的位置,这将是好的,但它似乎没有遵循这种逻辑-特殊字符只是出现在随机的地方


或者,我是否可以为Python3.6使用另一个包来读取PDF文件textract似乎只适用于Python2.x?

如果没有正在解析的PDF示例,很难说为什么会出现奇怪的字符。我在Python3.x中使用PyPDF2时也遇到了问题。我发现自己在大多数与PDF相关的任务中都表现出色。您可以尝试使用它来查看在文本提取期间是否具有相同的字符

import PyPDF2
pdfFileObj = open("file.pdf","rb")
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(1)
pageObj.extractText()
>>> '˝e year has actually turned out to be more confusing than expected. 
 But it also leaves me increasingly convinced that a 
 \nsigni˜cant num˛ber of cases were false.'