Python 提取内容后，我的PDF文件内容没有意义_Python_Python 3.x_Pdf

Python 提取内容后，我的PDF文件内容没有意义

python python-3.x pdf

Python 提取内容后，我的PDF文件内容没有意义,python,python-3.x,pdf,Python,Python 3.x,Pdf,我的PDF文件一直存在严重问题。我想从我的PDF中提取所有文本。在提取之后，我把它全部用字节码表示您可以在下面看到提取文本的提取部分： b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n<</Type/Catalog/Pages 2 0 R/Lang(en-US) /Metadata 89 0 R/ViewerPreferences 90 0 R>>\r\nendobj\r\n2 0 obj\r\n<</Type/P

我的PDF文件一直存在严重问题。我想从我的PDF中提取所有文本。在提取之后，我把它全部用字节码表示

您可以在下面看到提取文本的提取部分：

b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n<</Type/Catalog/Pages 2 0 R/Lang(en-US) /Metadata 89 0 R/ViewerPreferences 90 0 R>>\r\nendobj\r\n2 0 obj\r\n<</Type/Pages/Count 11/Kids[ 3 0 R 28 0 R 36 0 R 38 0 R 42 0 R 49 0 R 58 0 R 60 0 R 62 0 R 64 0 R 66 0 R] >>\r\nendobj\r\n3 0 obj\r\n<</Type/Page/Parent 2 0 R/Resources<</Font<</F1 5 0 R/F2 9 0 R/F3 12 0 R/F4 17 0 R/F5 19 0 R>>/ExtGState<</GS7 7 0 R/GS8 8 0 R>>/XObject<</Image27 27 0 R>>/ProcSet[/PDF/Text/ImageB/ImageC/ImageI] >>/Annots[ 11 0 R 24 0 R 25 0 R 26 0 R] /MediaBox[ 0 0 612 792] /Contents 4 0 R/Group<</Type/Group/S/Transparency/CS/DeviceRGB>>/Tabs/S>>\r\nendobj\r\n4 0 obj\r\n<</Filter/FlateDecode/Length 5962>>\r\nstream\r\nx\x9c\xc5][o\xe3\xc6\x92~\x1f`\xfeC?J\x81\x87!\xbby\x1d\x1c,0\x17\'9\x07\xc9\\l\x03\xd9 \xc9\x03-\xd1\x16weI!9\xe3\xf1\xbf\xdf\xfa\xaa\x9b\x17\x89\xa4\xec\x91Z\xde\x01\xac\x91\xa8&\xab\xba\xaa\xba\xee\xdd\xfa\xe7\xe5\x0b\xd7q\xf1/\xf1\xa4pEH\xafQ"E\x91\xbd|\xf1\xfb\x0fb\xf5\xf2\xc5\xdb\xab\x97/~\xfc\xc9\x13\x9e\xe7\xb8\xbe\xb8\xbay\xf9\xc2\xa3q\xae\xf0\x84\x1f\x06\x8e\xa4\xe1A\xe2$\xa1\xb8\xba\xa3q?_F\xe2\xb6\xa4g\x8a[\xfe\x14\x9bO?\xbf|\xf1\xe7\xe4\xd7\xe9+5I\xcbJ\xe0\xff/S5\xd9\xd0\xdf\x9c\xfe\xd2j\xea\xb9\x93l\xfeZL\xff\x16W\xffy\xf9\xe2\x9c`~~\xf9\xe2\x9f#\x90\x0bd\xec\x04q\x179\xc6\xc9\xa0\xa2\x80\xc2\x8f\xd3P\xbfq\xa7\x11}x\xe5O$\xbd\xc1\x07\x0fWc\x8b\xc8D\xa1\xe3\xc91d\xbe{\xd6z\x90r\x9d\xd8\x17a(\x9d\xc8\x17^\xec9I$\x12\xfa@\x17\xdb\xa1O\x1d\xa7q\x97\x82`u\x11W\xa1\x88|\x1f\xb8?\x8e\xf4\xe7\xfa\x8d\xf4\x94#\x93\x1a\xa2\nb\xc7U\x83\x98=m`\x83Z\xc0\xc4\xeb`\'\xbd\xd8\xf1\x03\xc2\xd0ud\xdc\xc3\xf0\xb7\xacJ\xb5t\xa5\xd3Wr2

如何从中提取文本？

您需要使用软件包解析PDF文件并从中提取文本。例如，

PyPDF2

可按如下方式使用：

import io
import requests
import PyPDF2

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url, stream=True)
pdf = PyPDF2.PdfFileReader(io.BytesIO(response.content))

with open('output.txt', 'w') as f_output:
    for page in range(pdf.getNumPages()):
        f_output.write(pdf.getPage(page).extractText())

这将创建一个

output.txt

文件，开始：

上次更新：
3/30/2018
元数据：
蒂沃利湾
南方
水文的
站
地点：
蒂沃利湾
，纽约
(
42.027038, 
-
73.925957
)
数据收集期：
七月
1996*

您需要使用一个包来解析PDF文件并从中提取文本。例如，

PyPDF2

可按如下方式使用：

import io
import requests
import PyPDF2

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url, stream=True)
pdf = PyPDF2.PdfFileReader(io.BytesIO(response.content))

with open('output.txt', 'w') as f_output:
    for page in range(pdf.getNumPages()):
        f_output.write(pdf.getPage(page).extractText())

这将创建一个

output.txt

文件，开始：

上次更新：
3/30/2018
元数据：
蒂沃利湾
南方
水文的
站
地点：
蒂沃利湾
，纽约
(
42.027038, 
-
73.925957
)
数据收集期：
七月
1996*

您说的是“提取后”，但据我所知，您只是下载了文件，并没有实际尝试提取文本。也许这个问题？欢迎来到StackOverflow！如果你的问题不是重复的，请编辑你的问题，明确你在寻找什么。同时，请拿着这本书，读一读你在这里的最佳选择是做你的研究，对于相关的话题，等等，并试一试。祝你好运你说“提取后”，但据我所知，你只是下载了文件，并没有真正尝试提取文本。也许这个问题？欢迎来到StackOverflow！如果你的问题不是重复的，请编辑你的问题，明确你在寻找什么。同时，请拿着这本书，读一读你在这里的最佳选择是做你的研究，对于相关的话题，等等，并试一试。祝你好运非常感谢你的帮助，马丁·埃文斯。不客气！别忘了点击向上/向下按钮下的勾号，接受答案作为已接受的解决方案。非常感谢您的帮助Martin Evans。不客气！别忘了点击向上/向下按钮下的勾号，接受答案作为已接受的解决方案。