如何使用python从pdf文件中提取文本？_Pdf_Pypdf2

如何使用python从pdf文件中提取文本？

pdf

如何使用python从pdf文件中提取文本？,pdf,pypdf2,Pdf,Pypdf2,我正在使用pyPDF2模块…我的代码就在下面-> import PyPDF2 as p2 pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb") pdfread = p2.PdfFileReader(pdffile) x = pdfread.getPage(0) print(x.extractText()) pdffile.close() 但到目前为止，输出是非utf-8字符的…我假设有某种方法可以定义py

我正在使用pyPDF2模块…我的代码就在下面->

import PyPDF2 as p2

pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb")
pdfread = p2.PdfFileReader(pdffile)

x = pdfread.getPage(0)
print(x.extractText())

pdffile.close()

但到目前为止，输出是非utf-8字符的…我假设有某种方法可以定义python在读取时使用的编码。输出是-->

输出仅包含空格和符号。没有文本可用

˘ˇˆ˙˝ˇ
˛˚˜






˘ˇ
ˇ˘ˆ˙

˝

˚˜ˇ ˇ ˇ!˜
˘
˙
ˆ#˘ $˛%

&ˇ&ˇ˜'
ˇ
%(%˜)

˘ˇˆ˙˙˙˚˜˙
 !ˇ˚
˘ˇˆ˙˙!ˇ&#˘˘˙
'#(˚
˘ˇˆ˙˙!#(#˘˘
)*#˚
˘ˇˆ˙˙#˘˘˙
,˝˛#˚
˘ˇˆ˙˙˙˙,˝˛#-#
˜˚.ˇ
˘ˇˆ˙˙˙˙/ˇ##

˜##1#ˇˇˇ#####
ˇ&#ˇ#