Python 如何提取URL?

Python 如何提取URL?,python,beautifulsoup,python-requests,Python,Beautifulsoup,Python Requests,我对抓取和解析是新手。我想提取URL。但是我越来越 没有 没有 这是汤 <html><head><title>XABH</title> <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/> <meta content="0; url=http://www.xabh.com/scripts/detailsnew.asp?id=mar0617" htt

我对抓取和解析是新手。我想提取URL。但是我越来越

没有 没有

这是汤

<html><head><title>XABH</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="0; url=http://www.xabh.com/scripts/detailsnew.asp?id=mar0617" http-equiv="refresh"/>
</head><body>
</body></html>
XABH

您可以针对
内容中包含
url
子字符串的
meta
元素。然后,您可以按
进行拆分url=

In [8]: content = soup.select_one("meta[content*=url]")["content"]

In [9]: content.split(";")[-1].split("url=")[-1]
Out[9]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'
或者,您可以将a应用于
元素的
内容
属性,然后重用相同的表达式来提取url:

In [10]: import re

In [11]: pattern = re.compile(r"url=(.*?)$")

In [12]: content = soup.find("meta", content=pattern)["content"]

In [13]: pattern.search(content).group(1)
Out[13]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'
In [10]: import re

In [11]: pattern = re.compile(r"url=(.*?)$")

In [12]: content = soup.find("meta", content=pattern)["content"]

In [13]: pattern.search(content).group(1)
Out[13]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'