Python-请求模块,获取域名?
我正在尝试使用Python-请求模块,获取域名?,python,python-requests,Python,Python Requests,我正在尝试使用请求模块构建一个网络爬虫, 基本上,我希望它做的是转到一个网页,获取所有的href,然后将它们写入一个文本文件 到目前为止,我的代码如下所示: def getLinks(url): response = requests.get(url).text soup = BeautifulSoup(response,"html.parser") for link in soup.findAll("a"): print("Link:"+str(link.get("href")))
请求
模块构建一个网络爬虫,
基本上,我希望它做的是转到一个网页,获取所有的href
,然后将它们写入一个文本文件
到目前为止,我的代码如下所示:
def getLinks(url):
response = requests.get(url).text
soup = BeautifulSoup(response,"html.parser")
for link in soup.findAll("a"):
print("Link:"+str(link.get("href")))
href="/out/101"
哪些在某些网站上有效
但是我试图在href
上使用它的不是像“www.google.com”这样的完整域名,而是指向重定向到链接的目录的路径
看起来像这样:
def getLinks(url):
response = requests.get(url).text
soup = BeautifulSoup(response,"html.parser")
for link in soup.findAll("a"):
print("Link:"+str(link.get("href")))
href="/out/101"
如果我试着把它写进一个文件,它看起来是这样的
1. /out/101
2. /out/102
3. /out/103
4. /out/104
这不是我真正想要的
soo我如何从这些链接中获取域名?这意味着URL是相对于当前链接的。要获取完整URL,请使用:
这意味着URL是相对于当前URL的。要获取完整URL,请使用:
请尝试下面的代码。它会给你一个网站的所有链接。如果您知道网站的
基本url
,则可以从中提取所有其他url。整个网页抓取代码都在这里
请尝试下面的代码。它会给你一个网站的所有链接。如果您知道网站的
基本url
,则可以从中提取所有其他url。整个网页抓取代码都在这里
啊,是的,但是这只给出了重定向到实际站点的页面的完整url,但是我如何获得重定向到的站点的url呢P@stav向它发出请求并获取
响应.url
。如果您需要记录重定向链,请参见。啊,对,但这仅给出重定向到实际站点的页面的完整url,但如何获取重定向到的站点的urlP@stav向它发出请求并获取响应.url
。如果需要记录重定向链,请参阅。