用python从不可压缩的Pdf中提取文本_Python_Pdf

用python从不可压缩的Pdf中提取文本

python pdf

用python从不可压缩的Pdf中提取文本,python,pdf,Python,Pdf,我一直在尝试从PDF中提取文本，我将PyPDF2与python一起使用并提取文本，但现在我尝试从不可复制的PDF中提取文本。它返回空字符串我正在从此处将简单的可复制PDF转换为不可复制PDF联机：这是我的密码： from PyPDF2 import PdfFileReader def get_info(path): with open(path, 'rb') as f: pdf = PdfFileReader(f) if pdf.isEncrypt

我一直在尝试从PDF中提取文本，我将PyPDF2与python一起使用并提取文本，但现在我尝试从不可复制的PDF中提取文本。它返回空字符串

我正在从此处将简单的可复制PDF转换为不可复制PDF联机：

这是我的密码：

from PyPDF2 import PdfFileReader


def get_info(path):
    with open(path, 'rb') as f:
        pdf = PdfFileReader(f)
        if pdf.isEncrypted:
            pdf.decrypt('')
        page = pdf.getPage(1)
        # print(page)
        print('Page type: {}'.format(str(type(page))))
        text = page.extractText()
        print(text)


if __name__ == '__main__':
    path = 'pdfs/finalNoCopy.pdf'
    get_info(path)

我的输出：

Page type: <class 'PyPDF2.pdf.PageObject'>


Process finished with exit code 0

页面类型：
进程已完成，退出代码为0

它给我一个空字符串。

您可以尝试以下代码：

import fitz ## Pip install pymupdf

text1=""
file_path = r'your_file_name_with_path.pdf'
doc = fitz.open(file_path)
for page in doc:                            
    text1+=(page.getText())

当你说不可复制的pdf时，你指的是无法搜索的pdf。换句话说，它们是扫描图像。我说的对吗？不，不是那样的。我仍然可以在adobe acrobat中选择文本，但无法复制。请在那个网站上上传任何虚假的pdf，你会明白我的意思为什么要从不可复制的文件中提取文本…为什么不从普通的pdf文件中提取文本？我从简历中提取文本，它们大多是pdf格式的，但我想我的答案是完全可能的，我希望这对任何类型的pdf文件都适用