Python 如何提取URL?
我对抓取和解析是新手。我想提取URL。但是我越来越 没有 没有 这是汤Python 如何提取URL?,python,beautifulsoup,python-requests,Python,Beautifulsoup,Python Requests,我对抓取和解析是新手。我想提取URL。但是我越来越 没有 没有 这是汤 <html><head><title>XABH</title> <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/> <meta content="0; url=http://www.xabh.com/scripts/detailsnew.asp?id=mar0617" htt
<html><head><title>XABH</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="0; url=http://www.xabh.com/scripts/detailsnew.asp?id=mar0617" http-equiv="refresh"/>
</head><body>
</body></html>
XABH
您可以针对内容中包含url
子字符串的meta
元素。然后,您可以按进行拆分然后通过url=
:
In [8]: content = soup.select_one("meta[content*=url]")["content"]
In [9]: content.split(";")[-1].split("url=")[-1]
Out[9]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'
或者,您可以将a应用于元
元素的内容
属性,然后重用相同的表达式来提取url:
In [10]: import re
In [11]: pattern = re.compile(r"url=(.*?)$")
In [12]: content = soup.find("meta", content=pattern)["content"]
In [13]: pattern.search(content).group(1)
Out[13]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'
In [10]: import re
In [11]: pattern = re.compile(r"url=(.*?)$")
In [12]: content = soup.find("meta", content=pattern)["content"]
In [13]: pattern.search(content).group(1)
Out[13]: 'http://www.xabh.com/scripts/detailsnew.asp?id=mar0617'