Python3从web解析PDF_Python_Pdf_Python Requests_Pypdf2 - Fatal编程技术网

Python3从web解析PDF

python pdf

Python3从web解析PDF,python,pdf,python-requests,pypdf2,Python,Pdf,Python Requests,Pypdf2,我试着从一个网页上获取一个PDF文件，解析它，然后用打印机将结果打印到屏幕上。我使用以下代码使其正常工作： with open("foo.pdf", "wb") as f: f.write(requests.get(buildurl(jornal, date, page)).content) pdfFileObj = open('foo.pdf', "rb") pdf_reader = PyPDF2.PdfFileReader(pdfFileObj) page_obj = pdf_rea

我试着从一个网页上获取一个PDF文件，解析它，然后用打印机将结果打印到屏幕上。我使用以下代码使其正常工作：

with open("foo.pdf", "wb") as f:
    f.write(requests.get(buildurl(jornal, date, page)).content)
pdfFileObj = open('foo.pdf', "rb")
pdf_reader = PyPDF2.PdfFileReader(pdfFileObj)
page_obj = pdf_reader.getPage(0)
print(page_obj.extractText())

写一个文件，这样我就可以读了，虽然听起来很浪费，所以我想我应该用这个来减少中间人的工作量：

pdf_reader = PyPDF2.PdfFileReader(requests.get(buildurl(jornal, date, page)).content)
page_obj = pdf_reader.getPage(0)
print(page_obj.extractText())

但是，这会产生一个

AttributeError:“bytes”对象没有属性“seek”

。如何将来自

请求的PDF直接输入PyPDF2？
使用io来伪造文件的使用（Python 3）：
我没有在您的上下文中进行测试，但我测试了这个简单的示例，它成功了：
import io

output = io.BytesIO()
output.write(bytes("hello world","ascii"))
output.seek(0)
print(output.read())

收益率：
b'hello world'

您必须使用BytesIO
将返回的内容转换为类似文件的对象：
import io

pdf_content = io.BytesIO(requests.get(buildurl(jornal, date, page)).content)
pdf_reader = PyPDF2.PdfFileReader(pdf_content)

import io

pdf_content = io.BytesIO(requests.get(buildurl(jornal, date, page)).content)
pdf_reader = PyPDF2.PdfFileReader(pdf_content)




[pdf]相关文章推荐



                                                        
是否自动将DWF转换为PDF？
pdf 
&引用；pdftk multistamp“-喜欢Postscript的实用程序吗？
pdf 
如何排除渲染不良的PDF文件
pdf 
将XMP元数据嵌入PDF
pdf 
ods pdf中的sas页脚注
pdfsas 
转换为PDF/A后，无法在*部分*页面上选择文本
pdf 
从PDF中提取书目
pdflatex 
将SVG插入PDF
我一直在用DATABICIC+C++接口使用Adobe PDF库，我需要把一些图表插入到正在生成的PDF文档中。如果我的图表是JPEG格式，它就可以工作。我的意思是这个API支持插入这样的图像。但它不是一种合适的格式，因为图像质量很差。所以我需要使用一些向量格式。问题是，基于Steema提供的java TeeChart库的应用程序似乎只支持一种矢量格式：SVG，至少我只知道一种
pdfsvg 
使用Itextsharp裁剪pdf的左侧
pdf 
如何在chromedriver 2.15中打开pdf而不下载
pdf 
Pdf 经典Asp-生成页面/页面加载后获取html内容
pdfasp-classic 
Pdf 附件。检索电子邮件附件时的名称为空
pdf 
Ghostscript：为什么我必须为PDF/a转换提供pdfa_def.ps？
pdf 
如何在目录中查找受密码保护的pdf文件？
pdfcommand-line 
Pdf postscript打印简单文本页的示例
pdf 
如何替换/删除PDF文件中的文本
pdf 
Docx4J将中文转换为pdf
pdfms-word 
如何解决此错误；“访问被拒绝”；在IE浏览器中从angular7应用程序下载PDF时？
pdfinternet-explorer 
将Base64转换为PDF
pdf 
Latex中的大表在输出到PDF时被切断？
pdflatex 
                                       





随机文章推荐



                                                        
Windows mobile 触摸Pro 2、ARMs芯片和浮点指令
windows-mobile 
Windows mobile Windows Mobile 6.5应用程序数据？
windows-mobile 
Windows mobile 在MsgBox关闭时执行某些操作
windows-mobile 
Windows mobile 尝试打开windows mobile项目时出错
windows-mobile 
Windows mobile 在windows embedded compact 7上运行windows mobile 6.5应用程序
windows-mobile 
Windows mobile 找不到*.exe（或其依赖项之一）win ce错误
windows-mobile


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 执行命令并将其输出存储在变量中
									Python
							 
python mysqldb多连接
									Python
							 
Python 在数据集中查找唯一值
									Python
							 									Sql
							 
Python 如何使用作者全名（无首字母缩写）搜索蛋白质数据库
									Python
							 
Python 熊猫语言中的单数和复数短语匹配
									Python
							 									String
							 									Pandas
							 
Python 房地产挂牌刮刀：如何从挂牌标题中提取卧室？
									Python
							 
Python 如何避免实例之间共享类数据？
									Python
							 									Class
							 
Python 监视每个客户端的应用程序进程
									Python
							 
Python—在定义函数之前还是之后导入模块有关系吗？新兵
									Python
							 									Function
							 
Python 基于一列将CSV文件拆分为多个文件，包括列的总和
									Python
							 									File
							 									Csv
							 
Python Jython ImportError:没有名为*的模块（仅在Windows Server 2012上）
									Python
							 
Python 检查数据框列中是否包含特定值
									Python
							 									Pandas
							 									Dataframe
							 
Python 如何使用pandas为某些列创建虚拟对象。get_dummies（）
									Python
							 									Pandas
							 
Python 如何在CPU上运行Tensorflow
									Python
							 									Tensorflow
							 
Python Oracle忽略order by子句
									Python
							 									Sql
							 									Oracle
							 
Python TypeError:“int”对象不支持索引
									Python
							 									Sql
							 									Postgresql
							 
Python 使用迭代的Kivy下拉列表
									Python
							 
Python 如何停止使用默认属性填充的URL重写地址栏
									Python
							 									Flask
							 
Python Jupyter实验室交互式图像显示：使用HBox的小部件安排问题
									Python
							 									Matplotlib
							 
使用Python从SQL Server和Oracle进行内部连接查询
									Python
							 									Sql
							 									Oracle
							 
Python 如何使用pickle随机选择文件？
对于一个学校项目，我必须制作一个程序，从一个文件中随机选择一首歌曲，输入艺术家的名字和歌曲标题，玩家必须从艺术家名字和歌曲标题中填入空白，以获得分数。p>
									Python
							 
Python AttributeError:“模块”没有属性
									Python
							 
Python 从文本文件中删除空行、空格、段落标记
									Python
							 									Python 3.x
							 
Python 基于另一列值选择条件填充
									Python
							 									Pandas
							 									Dataframe
							 
Python 我的简单Dash应用程序有什么问题，导致绘图无法正常工作？
									Python
							 									Flask
							 									Plot
							 
使用python将字符串中的某些单词大写
									Python
							 									String
							 									List
							 
降级Ubuntu 18.04上预装的Python版本
									Python
							 
如何在Python3中选择字符串中最后一个字符后的所有数字？
									Python
							 									Python 3.x
							 									String
							 
Python Django中如何按嵌套字段过滤
									Python
							 									Django
							 
获取AttributeError:模块“mysql”在python中没有属性“connector”
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Filter
Blockchain
Jakarta Ee
Xmpp
Swiftui
Msbuild
Web Services
Mongodb
Graphviz
Z3
Webgl
Haskell
For Loop
Automation
Salesforce
Zend Framework2
Dask
Coding Style
Http
Asp.net Mvc 2
Documentation
Sip
Libgdx
Wxpython
Antlr
Ruby On Rails 4
Embedded
Facebook Graph Api
Talend
Discord
Dynamic
Apache Storm
Ssl
Linq
Hibernate
Erlang
Download
Types
Time
Algorithm
Polymer
Csv
Gradle
Windows Runtime
Dynamics Crm
Mercurial
EmptyTag
Next.js
D
Jsp
Corda
Model View Controller
Gatsby
Iis
Google App Engine
Architecture
Wordpress
Autodesk Forge
Socket.io
Xamarin.android
Browser
Cassandra
Glassfish
React Native
Dojo
Internet Explorer
Reference
Nosql
Youtube
Install4j
Graphql
Network Programming
Cloud
Cmake
Virtualbox
Botframework
Com
Spring
Aframe
Timer
Iframe
Teamcity
Amazon Cloudformation
User Interface
Entity Framework
Sorting
Dom
Phpstorm
Vaadin
Azure Cosmosdb
Cryptography
Robotframework
Wso2
Grafana
Macos
Lotus Notes
Osgi
Go
Gridview
Logstash
Linux Kernel
Actionscript 3
Gmail
Docker Compose
Lucene
Laravel 5
Android Studio
Vim
Ms Word
Uitableview
Mod Rewrite
Drupal 7
C++ Cli
Configuration
Mobile
Maps
Ada
Cmd
Node.js
Cron
Python Sphinx
Cygwin
Kubernetes
Wicket
Plot
Chart.js
Mariadb
Google Maps
Selenium Webdriver
Ms Office
Soap
Xamarin.ios
Actions On Google
Jquery
Camera
Isabelle
Xcode
C++11
Angular
Nestjs
Rspec
Asterisk
Content Management System
Google Cloud Dataflow
Multithreading
Routing
Ip
Stream
Codenameone
Visual Studio
Autocomplete
Google Chrome Devtools
Oracle Apex
Abap
Windbg
Fiware
Statistics
Plsql
Stanford Nlp
Kentico
Internet Explorer 8
Delphi
Java
Frameworks
Jira
Chef Infra
Amp Html
Post
Xamarin.forms
Nhibernate
Arangodb
Boost
Neo4j
Grails
Azure Ad B2c
Function
Recursion
Visual Studio 2015
Rest
Android Layout
Powerbi
Ipad
Date
Asynchronous
Firefox Addon
Centos
Colors
Sqlite
Interface
Sharepoint 2013
Netty
Asp Classic
Django
Laravel
Streaming
Twitter Bootstrap 3
Llvm
Kendo Ui
Cloud Foundry
Opencart
Mule


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网