如何使用Python读取PDF扩展文件中图像中的文本？_Python

如何使用Python读取PDF扩展文件中图像中的文本？

python

如何使用Python读取PDF扩展文件中图像中的文本？,python,Python,我试着阅读一个PDF文件，其中包含表格数据和文本，并且成功了。但是我有一张PDF格式的图片，里面有一些文字需要记录，所有的PDF都在一个特定的文件夹里。我只懂python的基础知识。有人能帮我吗？您可以使用下面是一个示例代码，从所有文档页面中提取上述所有内容 from pdfreader import SimplePDFViewer, PageDoesNotExist fd = open(you_pdf_file_name, "rb") viewer = SimplePDFViewer(f

我试着阅读一个PDF文件，其中包含表格数据和文本，并且成功了。但是我有一张PDF格式的图片，里面有一些文字需要记录，所有的PDF都在一个特定的文件夹里。我只懂python的基础知识。

有人能帮我吗？

您可以使用

下面是一个示例代码，从所有文档页面中提取上述所有内容

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

您还可以将图像转换为对象并保存

for i, img in enumerate(images):
    img.to_Pillow().save("{}.png".format(i))

您可以使用从PDF文档中提取图像（内联和XObject）和文本（普通和包含PDF运算符）

下面是一个示例代码，从所有文档页面中提取上述所有内容

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

您还可以将图像转换为对象并保存

for i, img in enumerate(images):
    img.to_Pillow().save("{}.png".format(i))

这是一个复制品。查看这篇文章：这可能会解决您的问题，使用您正在提取的特定字段的坐标。它可以识别表格数据和pdf格式的文本，这些数据是从MS word转换成pdf格式的，但我需要读取一个包含一些随机文本的图像。有人能帮忙吗？这是一个副本。查看这篇文章：这可能会解决您的问题，使用您正在提取的特定字段的坐标。它可以识别表格数据和pdf格式的文本，这些数据可以从MS word转换为pdf格式，但我需要阅读一张包含一些随机文本的图像。有人能帮我吗？