无法使用Python请求读取HTML页面_Python_Html_Beautifulsoup_Python Requests - Fatal编程技术网

无法使用Python请求读取HTML页面

python html

无法使用Python请求读取HTML页面,python,html,beautifulsoup,python-requests,Python,Html,Beautifulsoup,Python Requests,我有一个包含图像的简单页面。我想在本地保存图像。因此，我使用beautfulsoup来刮取src。以下是我的代码： def getImage(url): page = requests.get(url).text #print(page) soup = BeautifulSoup(page, 'lxml') #print(soup) img = soup.find(name='img')

我有一个包含图像的简单页面。我想在本地保存图像。因此，我使用

beautfulsoup

来刮取

src

。以下是我的代码：

    def getImage(url):

        page = requests.get(url).text
        #print(page)
        soup = BeautifulSoup(page, 'lxml')
        #print(soup)

        img = soup.find(name='img')

        if img is not None:
            #img = img.get('src')
            print(img.attrs)

如果我打印

页面

，这是我将得到的。我还检查了页面是否为HTML，它显示它不是。但我不知道这种情况下还有什么其他类型。我还尝试使用不同的解析器，比如
lxml
和
html5lib
这是我直接复制的HTML页面：

<html><head><meta name="viewport" content="width=device-width, minimum-scale=0.1"> <title>SOMETHING TITLE</title> </head> <body style="margin: 0px; background: #0e0e0e;"> <img style="-webkit-user-select: none;margin: auto;cursor: zoom-in;" src="http:<WHATEVER>" width="500" height="279"> </body></html>

标题 “width=“500”height=“279”>

页面是否加密？这应该是一个简单的抓取：（
html中没有名为“img”的属性。您可以添加一个名称（即
但是，如果您无法更改HTML，可以执行以下操作：

images = soup.findAll('img') for image in images: # do whatever

问题是在代码到达bs4部分之前，
请求
未能将其作为HTML读取。相反，它给出了不同的未知格式，我不知道是什么。请参阅链接附件。我无法编辑HTML。请尝试以下提示：我找到了问题的原因。页面内容类型为
图像/png
。因此我不需要d使用
bs4
走大路。相反，我可以直接从
requests
本地下载图像。谢谢！
img = soup.find(name='myImage')

images = soup.findAll('img') for image in images: # do whatever

[html]相关文章推荐

Html Internet Explorer无法按预期方式查看我的网页。。。。请帮忙！ html

Html 是否可以通过适当的终止重写此文件？ html ruby-on-rails

Html 图像未在另一个监视器上拉伸 html css

显示全高的Html精灵 html

Html CSS气泡不'；我不能在Firefox中工作 html css

Html 无法识别水平菜单中链接之间的奇怪空格 html css

Html 获取画布元素以覆盖我的标题/导航 html css canvas

Html 通用锚css覆盖类…但仅在一个页面上 html css

HTML/CSS布局问题 html css layout

Html 如何在Twitter Bootstrap 3中去掉特定的边距？ html css twitter-bootstrap-3

在VB中从WebBrowser控件获取HTML元素 html vb.net visual-studio-2010

Html 3em字体是否应该与3em div的大小不同？ html css

Html 定位响应幻灯片 html css

Html 使用capybara单击基于ID的链接 html ruby-on-rails rspec

Html 我可以在CSS中选择以前的同级吗？ html css

Html Flask favicon won'；我不能在谷歌浏览器上工作 html google-chrome flask

Html CSS Overflow-x：隐藏在使用chrome而非safari的动画中 html css animation

Html 引导3关闭当前模式打开新模式 html css twitter-bootstrap-3

Html 如何使三角形div位于矩形div之上？ html css

Html 使用固定高度和flexbox分别划分一个部分和一个变量 html css

随机文章推荐

Spotify Web API调用引发502错误网关错误 spotify

如何查找Spotify用户元数据（播放列表、当前播放等） spotify

[python]相关推荐

在Python中读取和分组数据列表
Python List

使用Python上的cx_Oracle连接到Oracle数据库
Python

python读取字符串
Python String

Python django:在URLConf中传递参数
Python Django

用Python解析用户输入
Python Regex Parsing

向python字典中的键添加和访问值
Python Dictionary

Python2D列出将数据附加到位置的列表
Python

Python 如何使用Gensim打印前十大主题？
Python

Python 正则表达式查找字符串之间的所有模式
Python Regex String

Python ordereddict中的子集字段？
Python

Python __超级对象上的eq
Python Python 2.7

Python scikit学习转换器中的数据不持久
Python Machine Learning Scikit Learn

Python 使用robotframework，测试结束后可以做些什么吗？
Python Robotframework

Python 通过拆分键和减少值将数据帧保存到嵌套dict
Python Python 3.x Pandas Dictionary Recursion

Python 根据结果使用R数据帧、动物园和实际日期进行预测
Python R Pandas Dataframe

Python 类型错误：'；xml.etree.ElementTree.Element'；对象不可调用
Python Xml

Python中的日志解析：在给定时间段内出现超过N个错误时发出警报？
Python Performance Loops Time

python更新列表中的dict值
Python Python 2.7 List Dictionary

Python 将包含数学问题的文本文件转换为包含这些问题答案的文本文件
Python String File Math Text

Python 将站点包文件夹正确添加到升华文本3 sys.path 1.总结
Python Python 3.x Sublimetext3

Python 在TriggerDagRunOperator中提供上下文
Python Airflow

在Python中，内置常量True和False是唯一的吗？
Python

Python Numpy中对比度的变化
Python Numpy

Python 熊猫在多索引不工作的情况下移动
Python Pandas

Python 如何从特定类中采样批次？
Python Tensorflow

Python 导入模块/函数的方法有哪些？
Python Function

Python仅使用列表理解动态计算没有重复项的列表
Python

Python 如何基于df值创建新的数据帧行
Python Pandas Dataframe

如何使用Python在AutoCAD的一个实例中打开目录中的所有.dwg文件
Python Python 3.x

如何在Python中向列表中添加段落
Python List

Tags

Coding Style R Actionscript 3 Charts Colors Octave Security Json Visual Studio 2017 Sbt Grep Postman Nginx Proxy Tomcat Swing Windows 7 Github D Select Recursion Cobol Jira Yocto Discord.js Maven Nestjs Cloud Language Agnostic Blackberry Powershell Django Rest Framework Snowflake Cloud Data Platform If Statement Ckeditor Random Svg Alfresco Perforce Redis Redux Graphql Libgdx Orientdb Amazon Dynamodb Iis 7 Cakephp Outlook Google Visualization Plsql Oracle Apex Pip Emacs Mips Phpmyadmin Cordova Windows Phone 7 Sencha Touch Optimization Devexpress Vaadin Sublimetext3 Three.js Amp Html Google Analytics Error Handling Function Dictionary Ruby On Rails 3.1 Woocommerce Jasmine Stm32 Encryption Web Scraping Serial Port Video Streaming Openlayers 3 Pine Script Coldfusion Merge Umbraco Bash Yii2 Plugins Azure Data Factory Backbone.js Artifactory Codenameone Filesystems Migration Firefox Addon Rally Windows Phone 8.1 Spring Apache Flex Mapreduce Jquery Ui Project Management Matrix Gwt Matlab Spring Cloud Https Javascript Url Rewriting Css Seo Datetime Workflow Wpf Com Playframework 2.0 Input Email Sharepoint 2013 Magento2 Google Chrome Ocaml For Loop Orm Aframe Xampp Pyspark Prestashop Sass Gis Configuration Syntax Join Keyboard Subsonic Tinymce Apache Nifi Asynchronous Open Source Asterisk Documentation Mfc Spring Boot Ansible Listview Discord Html5 Canvas Zend Framework Orchardcms Asp.net Web Api Latex .net Spring Security Debian Sql Processing Sequelize.js Kubernetes Azure Hive Axapta Ibm Mobilefirst Aem Enums Symfony Scala Hash Permissions Windbg Image Time Audio C Sql Server 2008 R2 Excel Web Crawler Pytorch Apache Flink Google Api Eclipse Plugin Ignite Redirect Asp.net Mvc 4 Ssas Android Emulator Asp.net Mvc 3 Gcc Biztalk Sqlite Session Unix Plot Vhdl Svn Tensorflow Jakarta Ee Phpunit Spotify Blazor Windows 8 Nest Amazon Cloudformation Notepad++ Xquery Visual Studio 2010

Copyright © 2024. All Rights Reserved by - Fatal编程技术网