python html解析_Python - Fatal编程技术网

python html解析

python

python html解析,python,Python,我有以下问题：我想解析html文件并从html文件中获取链接。我可以获得以下代码的链接： class MyHTMLParser(HTMLParser): links=[] def __init__(self,url): HTMLParser.__init__(self) self.url = url def handle_starttag(self, tag, attrs): try: if t

我有以下问题：

我想解析html文件并从html文件中获取链接。我可以获得以下代码的链接：

class MyHTMLParser(HTMLParser):
    links=[]
    def __init__(self,url):
        HTMLParser.__init__(self)
        self.url = url

    def handle_starttag(self, tag, attrs):
        try: 
            if tag == 'a':
                for name, value in attrs:
                    if name == 'href':
                        if value[:5]=="http:":
                            self.links.append(value)
        except: 
            pass

但我不想得到音频文件，视频文件等，我只想得到html链接。我该怎么做

我可以检查链接的结尾，如果它是我可以避免的特殊格式将该链接附加到列表中。还有别的办法吗

您可以查看

'Content-Type'

标题：

import urllib2
url = 'https://stackoverflow.com/questions/13431060/python-html-parsing'
req = urllib2.Request(url)
req.get_method = lambda : 'HEAD'    
response = urllib2.urlopen(req)
content_type = response.headers.getheader('Content-Type')
print(content_type)

屈服

text/html; charset=utf-8

非常感谢@JonClements for

req.get\u method=lambda:“HEAD”

。可以找到有关此方法和发送HEAD请求的其他方法的更多信息。

我可以检查链接结束，如果是特定格式，我可以避免将该链接附加到列表中。还有其他方法吗？我可能会选择

request=urllib2.request（someurl），而不是使用Range
；request.get_method=lambda:“HEAD”；response=urllib2.urlopen（request）

并从那里继续…@JonClements:非常感谢您提供的信息。我不知道你能这么做。@JonClements:req.get_method（）返回

HEAD

意味着什么？似乎说它总是返回

GET

或

POST

？如果请求中存在有效负载，那么

GET\u方法是POST
，否则它是GET
-替换该方法是编写请求的一种非常麻烦的方法。head（url）
。。。




[utf 8]相关文章推荐



                                                        
经典ASP-如何将UTF-8字符串转换为UCS-2？
utf-8asp-classic 
Utf 8 内容配置特殊字符
utf-8asp.net-mvc-2internationalization 
Utf 8 Windows XP-cmd.exe-切换到utf8代码页后无法执行批处理文件
utf-8batch-filecmd 
UTF-8和ISO-8859-1具有相同的；html实体“；？
utf-8 
Utf 8 垂直tmux边框仅在使用iTerm时为虚线
utf-8 
将UTF-8字符串上载到Vertica
utf-8 
带有UTF-8的ASPEmail生成加扰字符
utf-8asp-classic 
Utf 8 使用UTF8时，控制台输出中的mysql表未对齐
utf-8mysql 
如何检查UTF-8字符串中的所有字母是否都是ASCII码？
utf-8pascal 
Utf 8 python-将非ascii字符写入文件
utf-8 
如何在ofbiz中格式化freemarker和.fo.ftl文档的UTF-8格式？
utf-8 
UTF-8和en_AU.UTF-8之间的差异
utf-8 
以UTF-8格式解析/排序/消除重复的大型信息矩阵
utf-8terminal 
按tera术语显示日文utf-8（或建议windows的终端程序）
utf-8terminalcharacter-encoding 
Utf 8 Liberty/ISE Eiffel中的If station错误
utf-8 
UTF-8编码字符的最大字节数是多少？
utf-8character-encoding 
                                       





随机文章推荐



                                                        
为内置帮助系统（QtHelp）生成HTML帮助的工具和方法？
htmldocumentation 
Html 垂直对齐文本框旁边的图像不会'；不要在Chrome或Safari中工作
htmlcss 
Html 流星中有任何逃逸的东西吗？
html 
Html 如何为Qmenu栏中的特定文本指定颜色
htmlqt 
Html CSS 3柱浮动和负边缘液体布局
htmlcss 
Html 引导图像按钮之间不需要的空间
htmlcsstwitter-bootstrap 
Html 将字段集数据显示到页面中心
htmlcss 
Html 我头部左右两侧的图像3
htmlcssimage 
HTML5视频播放-图像预加载
htmlvideo 
Html 爱奥尼亚标题和副标题隐藏内容
htmlmobile 
Html 渲染狩猎
htmlcsssafari 
解释奇怪的html代码
html 
Html Moodle上具有管理员审核功能的在线可填写表单
htmlmoodle 
Html 如何使用其外部div自动调整跨度
htmlcss 
Html 利用推/拉的引导嵌套列
htmlcsstwitter-bootstrap 
Html CSS-停止/启动元素动画，但与其他元素保持同步
htmlcss 
Html 联系方式7文本区域样式
htmlcss 
html5输入日期时间本地：可以选择时间吗？
htmlvalidation 
Html Can'；不要把容器放在中间
htmlcsstwitter-bootstrap 
Html 应用程序Python/flask和sdk boto3 dynamo db
htmlflaskamazon-dynamodb


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 将值传递到正则表达式匹配函数
									Python
							 									Regex
							 
Python 将特性关联到类对象
									Python
							 									Class
							 
Python 在wx.scrolled面板中滚动到末尾（右）
									Python
							 									Scroll
							 									Wxpython
							 
Python问题：打开和关闭文件会返回语法错误
									Python
							 									Syntax
							 
Python 向我的URL调度程序添加两个ID
									Python
							 									Django
							 									Django Models
							 
Python 在OOM上具有回退到磁盘的内存中数据库
									Python
							 
dict中的python 33 pickle类实例
									Python
							 									Python 3.x
							 
Python 使用Octo模块中的mapreduce字数示例
									Python
							 									Mapreduce
							 
Python urllib2和SSH代理--抛出未找到的404
									Python
							 									Ssh
							 									Proxy
							 
使用lxml和xpath从python元素树中提取多个值
									Python
							 									Xpath
							 
在AmazonEMR节点上引导时解压Python2.7的脚本
									Python
							 									Python 2.7
							 
在bash脚本中使用python函数-解析JSON
									Python
							 									Json
							 									Bash
							 
Python 如何在web2py的post请求中拥有一组单选按钮
									Python
							 									Arrays
							 									Post
							 
python虹膜检测决策树
									Python
							 									Python 3.x
							 									Pandas
							 									Scikit Learn
							 
Python SqlAlchemy中查询的截断文本
									Python
							 									Mysql
							 									Sqlalchemy
							 
Python pybind中的私有模块函数
我有一个简单的C++函数，例如g/p>
std::string debug_print(const Expression& exp)
{
    Graph g = compile(exp);
    return g.to_string();
}
									Python
							 									C++
							 
Python VS代码-urllib.error.urleror:<；url打开错误未知url类型：https>；
									Python
							 
Python 如何将类变量放入静态方法中？
									Python
							 									Class
							 
Python Seaborn箱线图+；条形图：重复图例
									Python
							 									Matplotlib
							 
Python日志模块不支持'；我不能在Sagemaker工作
									Python
							 									Logging
							 
Python 在Yolo v3黑暗中测量被测物体的X、Y、Z坐标
									Python
							 
在python上将元素添加到列表中，然后将列表添加到另一个列表中
									Python
							 									Arrays
							 									List
							 
Python：当我使用\t而不是空格字符时，为什么单词会转到下一行？
									Python
							 
Python psycopg2.errors.NotNullViolation:在Odoo中创建ir.cron模型时出错
									Python
							 									Xml
							 									Cron
							 									Odoo
							 
Python 为什么sklearn混淆矩阵和plot混淆矩阵的值不相等？
									Python
							 									Scikit Learn
							 
Python 向量规格化期间更改numpy数组值时numpy中出现问题
									Python
							 									Arrays
							 									Numpy
							 
Python 密钥-设置环境变量PowerShell（Windows）
									Python
							 									Powershell
							 
Python Scikit学习SVC决策函数
									Python
							 
Python 通过基于另一个变量保留顺序来收集_列表
									Python
							 									Apache Spark
							 									Pyspark
							 
Python 如何在tkinter中的笔记本小部件中创建新选项卡而不替换以前的选项卡？
									Python
							 									Python 3.x
							 									Tkinter
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Matplotlib
Logic
Windows 10
Winapi
Entity Framework Core
Sql Server 2005
Cors
Intellij Idea
Assembly
Servlets
Titanium
Ms Access
Elixir
Bash
Activerecord
Mapreduce
Openid
Fluent Nhibernate
Azure Sql Database
Sublimetext3
Collections
Phpunit
Utf 8
F#
Grid
Azure Data Factory
Curl
Express
Twig
Ipython
Omnet++
Julia
Python 2.7
Jquery Mobile
Generics
Gradle
Data Binding
Com
Jekyll
Processing
Layout
Aws Lambda
Url Rewriting
Asp.net Core Mvc
Windows Runtime
Dynamic
Ionic2
Scala
Spotify
Programming Languages
Keyboard
Android Emulator
Video
Ibm Midrange
Pascal
Date
Image Processing
Drupal
Gitlab
Jquery
Visual Studio
Scikit Learn
Windows 8
Ruby
Leaflet
Hash
Deep Learning
Optimization
Visual Studio 2008
Variables
Emacs
Opencl
Udp
Openstack
Anaconda
Ios5
Functional Programming
Amazon Redshift
Webstorm
Xml
Angularjs
Facebook Graph Api
Nservicebus
Directory
Phpmyadmin
Spring Integration
Blockchain
Pentaho
Opengl Es
Automated Tests
Cmd
Pip
Passwords
Embedded
Orchardcms
Grails
Responsive Design
Webgl
Doctrine Orm
Ios7
Google App Maker
Fonts
Robotframework
Gremlin
Apache Kafka
Install4j
Spring Cloud
Ruby On Rails 3.2
Matrix
Discord
Xamarin.forms
Mfc
Extjs
Memory
Ecmascript 6
Yaml
Dictionary
Codenameone
Winforms
Firefox Addon
Tcl
Cookies
Reference
Ffmpeg
Sql Server 2012
Swift2
Common Lisp
Parallel Processing
Localization
Combobox
Jakarta Ee
Doctrine
Wcf
Mule
Knockout.js
Vhdl
Network Programming
Arrays
Windows Phone 8.1
Hyperlink
Ide
Unix
Terminal
Acumatica
Sparql
Perforce
Testng
D3.js
Wicket
Ravendb
Air
Ibm Cloud
Path
Jsp
Web Applications
Sencha Touch 2
Sql Server 2008 R2
Instagram
Netbeans
Pyspark
Swagger
Sockets
Mpi
Xmpp
Scrapy
Types
Atom Editor
Vb.net
Sqlite
Wpf
Architecture
Fortran
Symfony1
Vb6
Apache Nifi
Google Apps Script
React Native
Sencha Touch
Cassandra
Kubernetes
Nosql
Model
Docker Compose
Mono
Racket
Google Sheets
Validation
Tensorflow
Parse Platform
Dll
Less
Ada
Keras
Yii
Angular
Multithreading
If Statement
Url
Reporting Services
Jdbc
Adobe


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网