Web scraping 如何从重定向链接中刮取url?
我正在尝试从一个页面获取链接,我已经获取了按钮中包含的Web scraping 如何从重定向链接中刮取url?,web-scraping,beautifulsoup,python-requests,Web Scraping,Beautifulsoup,Python Requests,我正在尝试从一个页面获取链接,我已经获取了按钮中包含的数据url,当单击该按钮时,网站将加载url=something.com/api?call=XXXXXX&auth=XXX 然后转到真正的网站anotherweb.com 所以我想,如果我请求URL,我可能会访问另一个web.com,它成功了 代码: import requests import urllib.error , urllib.request , urllib.parse #import time from bs4 import
数据url
,当单击该按钮时,网站将加载url=something.com/api?call=XXXXXX&auth=XXX
然后转到真正的网站anotherweb.com
所以我想,如果我请求URL
,我可能会访问另一个web.com,它成功了
代码:
import requests
import urllib.error , urllib.request , urllib.parse
#import time
from bs4 import BeautifulSoup
url = input('https://nova.egybest.bid/movie/extraction-2020')
id = url.split('/')[2]
url = requests.get(url).text
api_urls = []
soup = BeautifulSoup( url ,'lxml' )
table_url = soup.find('table' , class_='dls_table btns full mgb')
all = table_url.find_all('a' , class_= 'nop btn g dl _open_window')
for link in all:
api_url = link['data-url']
api_urls.append(api_url)
#Query para [call , auth]
for req in api_urls :
http = 'http://' + id
#time.sleep(4)
new_url = requests.get(http + req)
#time.sleep(3)
print(new_url.url)
一段时间后,它不起作用,相反,程序会打印id
(加载主页)
有没有办法获取另一个网站的实际urlanotherweb.com
没关系,我刚被禁了
注意:
id
是页面域something.com
您的问题不清楚,请回答您的问题并尽可能提供更多详细信息,以便能够理解您的问题!你的问题还不清楚,但我似乎能够理解你的目标。如果您使用了allow_redirects=False
,那么您将获得主url,这意味着它将关闭重定向。因为默认情况下,response.url
将为您提供url
的结尾,每当网站重定向时,默认情况下会打开重定向。我想直接进入该页面,但使用请求。获取(url)
进入主页。。我可以在pastbin中发布代码吗?你可以在问题中发布代码。点击添加代码与链接,你可以看到有5个按钮,5个不同的链接/决议的电影,当你点击一个,你被重定向到视频…com页面,我想刮你的问题不清楚,请你的问题,并包括更多的细节,因为你可以理解你的问题!你的问题还不清楚,但我似乎能够理解你的目标。如果您使用了allow_redirects=False
,那么您将获得主url,这意味着它将关闭重定向。因为默认情况下,response.url
将为您提供url
的结尾,每当网站重定向时,默认情况下会打开重定向。我想直接进入该页面,但使用请求。获取(url)
进入主页。。我可以在pastbin中发布代码吗?你可以在问题中发布代码。点击添加代码与链接,你可以看到有5个按钮,5个不同的链接/决议的电影,当你点击一个,你被重定向到视频…com页面,我想刮该网址