python PyPDF2-打印pdf文件中的文本时打印特殊字符？_Python_Python 3.x_Pdf_File Handling_Pypdf2

python PyPDF2-打印pdf文件中的文本时打印特殊字符？

python python-3.x pdf

python PyPDF2-打印pdf文件中的文本时打印特殊字符？,python,python-3.x,pdf,file-handling,pypdf2,Python,Python 3.x,Pdf,File Handling,Pypdf2,我正在尝试使用PyPDF2模块打印文本，但正在打印一些特殊字符。但它似乎不起作用。代码导入PyPDF2 obj=open（'/home/sarthak/Documents/UNIT-4.pdf'，'rb'） pdfReader=PyPDF2.PdfileReader（obj）打印（pdfReader.numPages）#打印页数 pageObj=pdfReader.getPage（0） print（pageObj.extractText（）.encode（'ascii'，'ignore'

我正在尝试使用PyPDF2模块打印文本，但正在打印一些特殊字符。
但它似乎不起作用。
代码

导入PyPDF2
obj=open（'/home/sarthak/Documents/UNIT-4.pdf'，'rb'）
pdfReader=PyPDF2.PdfileReader（obj）
打印（pdfReader.numPages）#打印页数
pageObj=pdfReader.getPage（0）
print（pageObj.extractText（）.encode（'ascii'，'ignore'））#也使用了'utf-8'，但也不起作用
对象关闭（）

输出

17
b'\n\n\n\n!#$\n\n\n\n\n\n\n\n\n\n\n  \n\n"%$\n\n\n"#\n\n\n $\n\n\n\'())(*+, -$&\n\n\n\n\n $&-\n $\n'

对于删除/n，u可以在文本中传递结果

import textacy
data=textacy.preprocess.remove_punct(section, marks='\n'))
print(data)

其中，

部分

是提取的数据

用于安装textacy

pip安装textacy