Python 如何提取URL？_Python_Beautifulsoup_Python Requests - Fatal编程技术网

Python 如何提取URL？

python

Python 如何提取URL？,python,beautifulsoup,python-requests,Python,Beautifulsoup,Python Requests,我对抓取和解析是新手。我想提取URL。但是我越来越没有没有这是汤 <html><head><title>XABH</title> <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/> <meta content="0; url=http://www.xabh.com/scripts/detailsnew.asp?id=mar0617" htt

我对抓取和解析是新手。我想提取URL。但是我越来越

没有没有

这是汤

<html><head><title>XABH</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="0; url=http://www.xabh.com/scripts/detailsnew.asp?id=mar0617" http-equiv="refresh"/>
</head><body>
</body></html>

XABH

您可以针对

内容中包含url
子字符串的meta
元素。然后，您可以按进行拆分url=
：
In [8]: content = soup.select_one("meta[content*=url]")["content"]

In [9]: content.split(";")[-1].split("url=")[-1]
Out[9]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'

或者，您可以将a应用于元
元素的内容
属性，然后重用相同的表达式来提取url：
In [10]: import re

In [11]: pattern = re.compile(r"url=(.*?)$")

In [12]: content = soup.find("meta", content=pattern)["content"]

In [13]: pattern.search(content).group(1)
Out[13]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'

In [10]: import re

In [11]: pattern = re.compile(r"url=(.*?)$")

In [12]: content = soup.find("meta", content=pattern)["content"]

In [13]: pattern.search(content).group(1)
Out[13]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'




[json]相关文章推荐



                                                        
Json ajax响应的交错加载
jsonasp.net-mvc-3 
如何在codeigniter中验证json对象？
jsoncodeigniter 
Json Ajax请求语法问题
jsonextjssencha-touch-2 
Json 否'；访问控制允许原点'；请求的资源上存在标头。安格拉斯
jsonangularjshtml 
Json 我想在NSURL（Swift）中的字符串中插入一个变量
jsonswift 
Json 戈朗与类型
jsongotypeswebsocket 
Json NetcatSource:发送的客户端超过了最大长度
jsonhadoopapache-spark 
如何将jsonAST.Jint转换为int
jsonscala 
JSon字符串化和解析实现
jsonparsing 
Json 如何仅在mongoose中获取子文档？
jsonnode.jsmongoose 
geojson数据的MongoDB导入失败
jsondatabasemongodb 
动态键字段的Spark JSON模式？
jsonapache-spark 
我正在尝试运行Karma ODTs，但无法映射.json文件的路径
json 
Json vb.net上的http客户端
jsonvb.net 
根据使用react native中的fetch检索的json对象验证数据
jsonapireact-native 
Json 如何在Ruby中将流转换为对象
jsonruby 
使用for循环内请求-响应中的json对象填充reactjs映射
jsonreactjs 
SQL Server:JSON
jsonsql-server 
颤振：如果Firebase存储中的JSON文件更新，如何使用Firebase存储获取新数据
jsonfirebaseflutterdart 
Json Googla Analytics 4-商业跟踪不起作用
jsongoogle-analyticse-commerce 
                                       





随机文章推荐



                                                        
我的应用程序如何访问Weblogic管理控制台中配置的密钥库？
weblogic 
Weblogic BPEL托管服务器错误
weblogic 
如何防止weblogic中的stdout.out严重增加大小（Windows）
weblogic 
Weblogic 删除阶段目录是否安全？
weblogic 
Weblogic 如何覆盖应用程序的类路径而不是附加到它？
weblogic 
iPlanet实例持续崩溃-weblogic日志中的唯一错误“；对等方重置连接：套接字写入错误“；被看见
weblogic 
Weblogic 工作管理器Web逻辑
weblogic 
Weblogic转储JFR而不丢弃旧的JFR
weblogic


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 通过工具栏删除带有auitoolbar的面板时出现PyDeadObjectError
									Python
							 									Wxpython
							 
Python 当事件发生时，如何分配变量的值？
									Python
							 									Python 3.x
							 									Tkinter
							 
Python 创建自定义集合
									Python
							 									Data Structures
							 
Python 无法导入Eve模块
									Python
							 
Python 在Django中通过字符串查找模型实例
									Python
							 									Django
							 
使用NumPy和pandas的Python文本矩阵
									Python
							 									Csv
							 									Numpy
							 									Matrix
							 									Pandas
							 
Python 在蟒蛇上安装Numpy Development
									Python
							 									Numpy
							 
Python：确定圆心和半径的循环回归
									Python
							 									Numpy
							 
Python3.4.1发现不同，保持不变
									Python
							 									Json
							 									Python 3.x
							 
用python录制多个麦克风
									Python
							 									Audio
							 
python中networkx图的节点访问
									Python
							 									Graph
							 
Python 读取带有[]和''；
									Python
							 									List
							 									Csv
							 
从python中的列表元素列表中删除双引号
									Python
							 
Python 将侦听器（POST请求）和读取器（GET请求）文件组合到客户端和主机
									Python
							 									Sockets
							 
Python 用户名正则表达式模式
									Python
							 
Python 无法拆分数据帧
									Python
							 									Pandas
							 									String
							 									Dataframe
							 
Python django检查字段中的数据是否存在于其他对象中
									Python
							 									Django
							 
Python Django-分配和分配；限制每个登录用户仅创建一个实例
									Python
							 									Django
							 									Django Models
							 
Python 当某些单元格值与其他值相加时，是否有解决方案
									Python
							 									Pandas
							 									Dataframe
							 
Python seaborn组合图如何像FaceGrid一样被分离？
									Python
							 									Pandas
							 									Matplotlib
							 
Python请求获取Json响应，其中某些字段编码不正确
									Python
							 									Json
							 									Character Encoding
							 
Python PyQt4到PyQt5如何进行？
									Python
							 									Python 3.x
							 
Python 如何将索引值作为密钥对附加到空字典中？
									Python
							 									Dictionary
							 
Python 如何在tweepy中显示tweets的全文
									Python
							 									Text
							 
Python arcsin中遇到无效值
									Python
							 									Numpy
							 
Python pyinstaller（打开后exe自动关闭）
									Python
							 
python使用text/excel文件中的凭据执行一个bot，循环到列表末尾
									Python
							 									Selenium
							 									Selenium Webdriver
							 
使用Folium创建贴图并添加图层和颜色贴图（Python）
									Python
							 
Python &引用；“最不惊讶”；和可变默认参数
									Python
							 
Python 未找到模块，即使在sys.path中，只有一个conda env
									Python
							 									Github
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Hadoop
Vb6
Entity Framework 4
Silverstripe
Azure Sql Database
Docker Compose
Terminal
Push Notification
Open Source
Ssh
Coldfusion
Bots
Visual Studio 2008
Rabbitmq
Lucene
Autodesk Forge
Azure Functions
Laravel
Single Sign On
Ubuntu
Windows
Autohotkey
Flutter
Mysql
Security
Biztalk
Sorting
Bash
Boost
Object
Google Visualization
Redirect
Phantomjs
Cordova
Stata
Editor
Maven
Geometry
Drupal
Tfs
Xampp
Erlang
Heroku
Memory
Zsh
Winforms
Virtualbox
Dictionary
Architecture
Coffeescript
Pytorch
Keyboard
Apache Storm
Wolfram Mathematica
Proxy
Phpunit
Air
C#
Ssrs 2008
Process
Internationalization
Osgi
Jpa
Actionscript 3
Nsis
Canvas
Raspberry Pi
Cron
Vuejs2
Session
Xna
Apache Flex
Opencl
Android Emulator
Frameworks
Openssl
Blazor
Codeigniter
Formatting
Opengl
Mapping
Jms
Neural Network
Python 2.7
E Commerce
Chef Infra
Amazon Redshift
Date
Pycharm
Nosql
Arrays
Ffmpeg
Laravel 4
Solr
Networking
Cmd
Extjs
Linq
Log4net
.net
Binding
Apache2
Qml
Usb
Discord.py
Compression
Dynamic
Ruby On Rails
Statistics
Google Sheets
Html5 Canvas
Ide
Ipython
Sql Server
Servlets
Google App Maker
Influxdb
Zurb Foundation
Xmpp
Tridion
Java 8
Plugins
Video Streaming
Smalltalk
Internet Explorer 8
Youtube Api
Nhibernate
Chart.js
Properties
Graphql
Triggers
Cassandra
Replace
Orientdb
Devexpress
Calendar
Appium
Spring Mvc
Navigation
Gmail
Gdb
Xaml
Nservicebus
Doxygen
Server
Php
Iis 7
Youtube
Shopify
Docker
Amazon Web Services
Blockchain
Stm32
Ajax
Vaadin
Io
Entity Framework
Quickbooks
Swift2
Typescript
Primefaces
Ibm Midrange
Corda
Debian
Deep Learning
System Verilog
Layout
Cocos2d Iphone
Orm
Visual Studio 2012
Gremlin
Html
Webview
Interface
Octave
Apache
Sharepoint
If Statement
Drupal 6
Dns
Couchbase
Jasmine
Awk
Azure Ad B2c
Tomcat
Perl
Gitlab
Gridview
Swagger
Numpy
Razor
Makefile
User Interface
Swiftui
Ignite
Database Design
Coq
Stored Procedures
Mpi
Google Cloud Firestore
Hive


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网