如何使用python从pdf文件中提取文本?
我正在使用pyPDF2模块…我的代码就在下面->如何使用python从pdf文件中提取文本?,pdf,pypdf2,Pdf,Pypdf2,我正在使用pyPDF2模块…我的代码就在下面-> import PyPDF2 as p2 pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb") pdfread = p2.PdfFileReader(pdffile) x = pdfread.getPage(0) print(x.extractText()) pdffile.close() 但到目前为止,输出是非utf-8字符的…我假设有某种方法可以定义py
import PyPDF2 as p2
pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb")
pdfread = p2.PdfFileReader(pdffile)
x = pdfread.getPage(0)
print(x.extractText())
pdffile.close()
但到目前为止,输出是非utf-8字符的…我假设有某种方法可以定义python在读取时使用的编码。输出是-->
输出仅包含空格和符号。没有文本可用
˘ˇˆ˙˝ˇ
˛˚˜
˘ˇ
ˇ˘ˆ˙
˝
˚˜ˇ ˇ ˇ!˜
˘
˙
ˆ#˘ $˛%
&ˇ&ˇ˜'
ˇ
%(%˜)
˘ˇˆ˙˙˙˚˜˙
!ˇ˚
˘ˇˆ˙˙!ˇ&#˘˘˙
'#(˚
˘ˇˆ˙˙!#(#˘˘
)*#˚
˘ˇˆ˙˙#˘˘˙
,˝˛#˚
˘ˇˆ˙˙˙˙,˝˛#-#
˜˚.ˇ
˘ˇˆ˙˙˙˙/ˇ##
˜##1#ˇˇˇ#####
ˇ&#ˇ#