Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/306.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 提取内容后,我的PDF文件内容没有意义_Python_Python 3.x_Pdf - Fatal编程技术网

Python 提取内容后,我的PDF文件内容没有意义

Python 提取内容后,我的PDF文件内容没有意义,python,python-3.x,pdf,Python,Python 3.x,Pdf,我的PDF文件一直存在严重问题。我想从我的PDF中提取所有文本。在提取之后,我把它全部用字节码表示 您可以在下面看到提取文本的提取部分: b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n<</Type/Catalog/Pages 2 0 R/Lang(en-US) /Metadata 89 0 R/ViewerPreferences 90 0 R>>\r\nendobj\r\n2 0 obj\r\n<</Type/P

我的PDF文件一直存在严重问题。我想从我的PDF中提取所有文本。在提取之后,我把它全部用字节码表示

您可以在下面看到提取文本的提取部分:

b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n<</Type/Catalog/Pages 2 0 R/Lang(en-US) /Metadata 89 0 R/ViewerPreferences 90 0 R>>\r\nendobj\r\n2 0 obj\r\n<</Type/Pages/Count 11/Kids[ 3 0 R 28 0 R 36 0 R 38 0 R 42 0 R 49 0 R 58 0 R 60 0 R 62 0 R 64 0 R 66 0 R] >>\r\nendobj\r\n3 0 obj\r\n<</Type/Page/Parent 2 0 R/Resources<</Font<</F1 5 0 R/F2 9 0 R/F3 12 0 R/F4 17 0 R/F5 19 0 R>>/ExtGState<</GS7 7 0 R/GS8 8 0 R>>/XObject<</Image27 27 0 R>>/ProcSet[/PDF/Text/ImageB/ImageC/ImageI] >>/Annots[ 11 0 R 24 0 R 25 0 R 26 0 R] /MediaBox[ 0 0 612 792] /Contents 4 0 R/Group<</Type/Group/S/Transparency/CS/DeviceRGB>>/Tabs/S>>\r\nendobj\r\n4 0 obj\r\n<</Filter/FlateDecode/Length 5962>>\r\nstream\r\nx\x9c\xc5][o\xe3\xc6\x92~\x1f`\xfeC?J\x81\x87!\xbby\x1d\x1c,0\x17\'9\x07\xc9\\l\x03\xd9 \xc9\x03-\xd1\x16weI!9\xe3\xf1\xbf\xdf\xfa\xaa\x9b\x17\x89\xa4\xec\x91Z\xde\x01\xac\x91\xa8&\xab\xba\xaa\xba\xee\xdd\xfa\xe7\xe5\x0b\xd7q\xf1/\xf1\xa4pEH\xafQ"E\x91\xbd|\xf1\xfb\x0fb\xf5\xf2\xc5\xdb\xab\x97/~\xfc\xc9\x13\x9e\xe7\xb8\xbe\xb8\xbay\xf9\xc2\xa3q\xae\xf0\x84\x1f\x06\x8e\xa4\xe1A\xe2$\xa1\xb8\xba\xa3q?_F\xe2\xb6\xa4g\x8a[\xfe\x14\x9bO?\xbf|\xf1\xe7\xe4\xd7\xe9+5I\xcbJ\xe0\xff/S5\xd9\xd0\xdf\x9c\xfe\xd2j\xea\xb9\x93l\xfeZL\xff\x16W\xffy\xf9\xe2\x9c`~~\xf9\xe2\x9f#\x90\x0bd\xec\x04q\x179\xc6\xc9\xa0\xa2\x80\xc2\x8f\xd3P\xbfq\xa7\x11}x\xe5O$\xbd\xc1\x07\x0fWc\x8b\xc8D\xa1\xe3\xc91d\xbe{\xd6z\x90r\x9d\xd8\x17a(\x9d\xc8\x17^\xec9I$\x12\xfa@\x17\xdb\xa1O\x1d\xa7q\x97\x82`u\x11W\xa1\x88|\x1f\xb8?\x8e\xf4\xe7\xfa\x8d\xf4\x94#\x93\x1a\xa2\nb\xc7U\x83\x98=m`\x83Z\xc0\xc4\xeb`\'\xbd\xd8\xf1\x03\xc2\xd0ud\xdc\xc3\xf0\xb7\xacJ\xb5t\xa5\xd3Wr2

如何从中提取文本?

您需要使用软件包解析PDF文件并从中提取文本。例如,
PyPDF2
可按如下方式使用:

import io
import requests
import PyPDF2

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url, stream=True)
pdf = PyPDF2.PdfFileReader(io.BytesIO(response.content))

with open('output.txt', 'w') as f_output:
    for page in range(pdf.getNumPages()):
        f_output.write(pdf.getPage(page).extractText())
这将创建一个
output.txt
文件,开始:

上次更新:
3/30/2018
元数据:
蒂沃利湾
南方
水文的
站
地点:
蒂沃利湾
,纽约
(
42.027038, 
-
73.925957
)
数据收集期:
七月
1996*

您需要使用一个包来解析PDF文件并从中提取文本。例如,
PyPDF2
可按如下方式使用:

import io
import requests
import PyPDF2

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url, stream=True)
pdf = PyPDF2.PdfFileReader(io.BytesIO(response.content))

with open('output.txt', 'w') as f_output:
    for page in range(pdf.getNumPages()):
        f_output.write(pdf.getPage(page).extractText())
这将创建一个
output.txt
文件,开始:

上次更新:
3/30/2018
元数据:
蒂沃利湾
南方
水文的
站
地点:
蒂沃利湾
,纽约
(
42.027038, 
-
73.925957
)
数据收集期:
七月
1996*

您说的是“提取后”,但据我所知,您只是下载了文件,并没有实际尝试提取文本。也许这个问题?欢迎来到StackOverflow!如果你的问题不是重复的,请编辑你的问题,明确你在寻找什么。同时,请拿着这本书,读一读你在这里的最佳选择是做你的研究,对于相关的话题,等等,并试一试。祝你好运你说“提取后”,但据我所知,你只是下载了文件,并没有真正尝试提取文本。也许这个问题?欢迎来到StackOverflow!如果你的问题不是重复的,请编辑你的问题,明确你在寻找什么。同时,请拿着这本书,读一读你在这里的最佳选择是做你的研究,对于相关的话题,等等,并试一试。祝你好运非常感谢你的帮助,马丁·埃文斯。不客气!别忘了点击向上/向下按钮下的勾号,接受答案作为已接受的解决方案。非常感谢您的帮助Martin Evans。不客气!别忘了点击向上/向下按钮下的勾号,接受答案作为已接受的解决方案。