Python请求：检查URL是否不是HTML网页_Python_Python Requests - Fatal编程技术网

Python请求：检查URL是否不是HTML网页

python

Python请求：检查URL是否不是HTML网页,python,python-requests,Python,Python Requests,所以我有一个爬虫程序，它使用这样的东西： #if ".mp3" in baseUrl[0] or ".pdf" in baseUrl[0]: if baseUrl[0][-4] == "." and ".htm" not in baseUrl[0]: raise Exception html = requests.get(baseUrl[0], timeout=3).text 这很有效。发生的情况是，如果.mp4或.m4a之类的文件进入爬虫程序而不是HTML页面，那么脚本将挂起，在li

所以我有一个爬虫程序，它使用这样的东西：

#if ".mp3" in baseUrl[0] or ".pdf" in baseUrl[0]:
if baseUrl[0][-4] == "." and ".htm" not in baseUrl[0]:
    raise Exception
html = requests.get(baseUrl[0], timeout=3).text

这很有效。发生的情况是，如果.mp4或.m4a之类的文件进入爬虫程序而不是HTML页面，那么脚本将挂起，在linux中，当我尝试运行脚本时，它将只打印：

Killed

是否有更有效的方法捕获这些非HTML页面？

您可以发送head请求并检查内容类型。如果是文本/html，则仅继续

r = requests.head(url)
if "text/html" in r.headers["content-type"]:
    html = requests.get(url).text
else:
    print "non html page"

如果你只想提出一个请求

r = requests.get(url)
if "text/html" in r.headers["content-type"]:    
    html = r.text
else:
    print "non html page"

谢谢该head请求是否占用大量带宽或时间？现在每个请求所需的时间应该增加一倍，对吗？为了提高效率，是否需要将此合并到一个web请求中？由于服务器不返回消息正文，因此头请求应该很快。它只返回元信息。是的，它可以合并成一个。requests.get（url）也返回相同的头。您也可以在那里检查内容类型。更新了答案。太棒了！我是否应该在操作符中使用

，而不是==
，因为有些网站会返回更多信息，如：'text/html；字符集=utf-8'
？是的，应该使用in




[download]相关文章推荐



                                                        
Download 每日图像下载
download 
Download Maven未下载/识别快照
download 
Download 使用IMAP（也可能是POP）的ent将允许下载文件。
downloadgmail 
Download Silverstripe 3.2：如何使用按钮强制从CMS下载文件？
downloadsilverstripe 
Download 从Tumblr博客下载所有被炒作的URL？
download 
Download 如何在空手道中从api端点获取下载的xlsx文件？
downloadkarate 
                                       





随机文章推荐



                                                        
Responsive design 仅在移动设备上使用响应式旋转木马
responsive-design 
Responsive design 响应性设计框架
responsive-design 
Responsive design 响应设计中的元素仅在特定窗口大小时消失
responsive-design 
Responsive design 响应网页-背景图像和文本缩放
responsive-design


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
如何使用其他机器内存，使用B计算机与Python的计算机内存？
									Python
							 									Memory Management
							 
Python 组合元组列表和列表，从列表中删除元组元素
									Python
							 									Algorithm
							 									List
							 
由'；abc&x27；[python]
									Python
							 									Function
							 									Geometry
							 
Python中的过程
									Python
							 
Python 数到100000并将其写入文件
									Python
							 									File
							 
Python-从字符串变量获取特定文本
									Python
							 
Python 查找所有匹配的数据帧对
									Python
							 									Datetime
							 									Pandas
							 
Python 将内容写入已经有头的json文件
									Python
							 									Json
							 
Python中的Euler#3项目
									Python
							 									Math
							 
Python：试图使用Scrapy，得到了这个错误…帮助我理解这个？
									Python
							 									Python 3.x
							 									Scrapy
							 
Python初学者：如何从网站表中的选定行提取数据
									Python
							 									Web Scraping
							 
Python 调用大函数会使代码变慢吗？
									Python
							 									Function
							 									Python 3.x
							 
Python 愚蠢退避中的折扣值
									Python
							 									Nlp
							 
MeterMeter未连接到后端-Python
									Python
							 
lxml python脚本，如何删除重复id的计数
									Python
							 									Xml
							 									Xpath
							 
如何在python中处理和设置错误、返回和返回值？
									Python
							 									Python 2.7
							 									Error Handling
							 
使用Python命令行输入参数运行.exe
									Python
							 									C++
							 
Python 如何调整此代码以使用enumerate（）函数查找字符串中单词的位置？
									Python
							 
Python RESTAPI与非RESTAPI
									Python
							 									Node.js
							 									Mongodb
							 									Rest
							 									Express
							 
Python Matplotlib绘图框
									Python
							 									Matplotlib
							 
在Python中使用两种不同类型对列表进行排序
									Python
							 									List
							 									Sorting
							 
python读取HTML表
									Python
							 									Pandas
							 
Python 调用生成器对象将返回错误'；类型错误：'；dict'；对象不可调用'；
									Python
							 
Python AssertionError:manager项的数量必须等于块项的并集#manager项：6004，#tot项：6005
									Python
							 									Python 3.x
							 									Pandas
							 									Dataframe
							 
Python 使用相同颜色打印每个簇
									Python
							 									Matplotlib
							 									Plot
							 
Python Matplotlip-在一个图形中从数据帧绘制多条线
									Python
							 									Pandas
							 									Matplotlib
							 
Python 如何获取由subprocess.run启动的进程的pid并终止它
									Python
							 									Windows
							 
Python 在pygame中，全屏重新打开游戏被破坏
									Python
							 									Python 3.x
							 
在Python中将所有文件从一个SFTP文件夹归档到另一个SFTP文件夹
									Python
							 
使用Python接收外部UDP广播
									Python
							 									Python 3.x
							 									Networking
							 									Udp
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Frameworks
Iis
Computer Vision
Acumatica
Kubernetes
Botframework
Ruby On Rails 3.1
Asp.net
Ant
Workflow
Graph
Angular
Ocaml
Compression
Cmake
Pip
Codenameone
Dojo
Ftp
Twig
Big O
Vagrant
Ember.js
Parallel Processing
Hadoop
Templates
Android
Snowflake Cloud Data Platform
Google Chrome
Logic
Mqtt
Heroku
Tcp
Reporting Services
Powerbi
Primefaces
Office Js
Mediawiki
Google Cloud Storage
Installation
Office365
Inno Setup
Mips
Windows 7
Umbraco
Amazon Cloudformation
Zend Framework
Ibm Midrange
Memory
Aframe
Command Line
Azure Functions
Html5 Canvas
Sed
Here Api
Network Programming
Mapping
Caching
Neural Network
Playframework
Windows 8
Printing
Selenium Webdriver
Apache2
Visual Studio 2010
Winforms
Amazon Redshift
Actionscript
Google Cloud Platform
Log4j
Configuration
Doxygen
Instagram
Proxy
Process
Vuejs2
Sharepoint
Imagemagick
Linux
Soap
Combobox
Osgi
Oracle11g
Google Apps Script
Certificate
Cocoa Touch
Scripting
Apache Kafka
Firebase
Image Processing
Jqgrid
Ibm Mq
Orchardcms
Memory Management
Google Maps Api 3
Fiware
Appium
Sml
Kdb
Cloud
Google Cloud Dataflow
Salesforce
Menu
Hybris
Reflection
Drupal 7
Dns
Jms
Vhdl
Tableau Api
Google Api
Internationalization
Ios
Solr
.htaccess
Facebook
Sql Server 2012
Ssl
Automated Tests
Ms Office
Windows Phone 7
Sql Server
Quickbooks
Xamarin
Character Encoding
Streaming
Checkbox
Arm
Gradle
Com
Codeigniter
Nlp
Youtube
Google Plus
Asynchronous
Directory
Testng
Asp.net Web Api
C# 3.0
Iis 7
Geometry
Sdk
Terminal
Interface
Gps
Abap
Antlr4
Swagger
Rally
Swing
System Verilog
Apache Flink
Entity Framework Core
Merge
Sonarqube
Emacs
Java Me
Netlogo
Asp.net Core Mvc
Drools
Crystal Reports
Rss
Python 2.7
Vue.js
Wpf
Node.js
Open Source
Matplotlib
Signalr
Subsonic
Google Colaboratory
Filesystems
Gwt
Redirect
Java
Discord.js
Azure Active Directory
Zend Framework2
Silverlight
Jquery
Deployment
Ruby On Rails 3.2
Asp Classic
Stored Procedures
Selenium
Safari
Visual Studio 2008
Post
Android Ndk
Chef Infra
Web
Dart
Openlayers 3
Leaflet
Video Streaming
Listview
Material Ui
Google Calendar Api
Docusignapi
Single Sign On
Lucene


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网