Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/xcode/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python读取PDF扩展文件中图像中的文本?_Python - Fatal编程技术网

如何使用Python读取PDF扩展文件中图像中的文本?

如何使用Python读取PDF扩展文件中图像中的文本?,python,Python,我试着阅读一个PDF文件,其中包含表格数据和文本,并且成功了。但是我有一张PDF格式的图片,里面有一些文字需要记录,所有的PDF都在一个特定的文件夹里。我只懂python的基础知识。 有人能帮我吗?您可以使用 下面是一个示例代码,从所有文档页面中提取上述所有内容 from pdfreader import SimplePDFViewer, PageDoesNotExist fd = open(you_pdf_file_name, "rb") viewer = SimplePDFViewer(f

我试着阅读一个PDF文件,其中包含表格数据和文本,并且成功了。但是我有一张PDF格式的图片,里面有一些文字需要记录,所有的PDF都在一个特定的文件夹里。我只懂python的基础知识。
有人能帮我吗?

您可以使用

下面是一个示例代码,从所有文档页面中提取上述所有内容

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

您还可以将图像转换为对象并保存

for i, img in enumerate(images):
    img.to_Pillow().save("{}.png".format(i))

您可以使用从PDF文档中提取图像(内联和XObject)和文本(普通和包含PDF运算符)

下面是一个示例代码,从所有文档页面中提取上述所有内容

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

您还可以将图像转换为对象并保存

for i, img in enumerate(images):
    img.to_Pillow().save("{}.png".format(i))

这是一个复制品。查看这篇文章:这可能会解决您的问题,使用您正在提取的特定字段的坐标。它可以识别表格数据和pdf格式的文本,这些数据是从MS word转换成pdf格式的,但我需要读取一个包含一些随机文本的图像。有人能帮忙吗?这是一个副本。查看这篇文章:这可能会解决您的问题,使用您正在提取的特定字段的坐标。它可以识别表格数据和pdf格式的文本,这些数据可以从MS word转换为pdf格式,但我需要阅读一张包含一些随机文本的图像。有人能帮我吗?