python PyPDF2-打印pdf文件中的文本时打印特殊字符?

python PyPDF2-打印pdf文件中的文本时打印特殊字符?,python,python-3.x,pdf,file-handling,pypdf2,Python,Python 3.x,Pdf,File Handling,Pypdf2,我正在尝试使用PyPDF2模块打印文本,但正在打印一些特殊字符。 但它似乎不起作用。 代码 导入PyPDF2 obj=open('/home/sarthak/Documents/UNIT-4.pdf','rb') pdfReader=PyPDF2.PdfileReader(obj) 打印(pdfReader.numPages)#打印页数 pageObj=pdfReader.getPage(0) print(pageObj.extractText().encode('ascii','ignore'

我正在尝试使用PyPDF2模块打印文本,但正在打印一些特殊字符。
但它似乎不起作用。
代码

导入PyPDF2
obj=open('/home/sarthak/Documents/UNIT-4.pdf','rb')
pdfReader=PyPDF2.PdfileReader(obj)
打印(pdfReader.numPages)#打印页数
pageObj=pdfReader.getPage(0)
print(pageObj.extractText().encode('ascii','ignore'))#也使用了'utf-8',但也不起作用
对象关闭()
输出

17
b'\n\n\n\n!#$\n\n\n\n\n\n\n\n\n\n\n  \n\n"%$\n\n\n"#\n\n\n $\n\n\n\'())(*+, -$&\n\n\n\n\n $&-\n $\n'

对于删除/n,u可以在文本中传递结果

import textacy
data=textacy.preprocess.remove_punct(section, marks='\n'))
print(data)
其中,
部分
是提取的数据

用于安装textacy
pip安装textacy