Python 使用代理链接浏览被阻止的网站_Python_Web Scraping_Beautifulsoup

Python 使用代理链接浏览被阻止的网站

python web-scraping

Python 使用代理链接浏览被阻止的网站,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我试图从一个阻止了我的ip地址的网站中提取数据，下面是我尝试过的两种错误方法方法1-我直接放置代理url来解析网页 from urllib.request import urlopen from bs4 import BeautifulSoup import lxml import time html= urlopen('http://s-s.www.enfsolar.com.prx.proxyunblocker.org/') soup = BeautifulSoup(html, 'lxm

我试图从一个阻止了我的ip地址的网站中提取数据，下面是我尝试过的两种错误方法

方法1-我直接放置代理url来解析网页

from urllib.request import urlopen
from bs4 import BeautifulSoup
import lxml
import time 

html= urlopen('http://s-s.www.enfsolar.com.prx.proxyunblocker.org/')
soup = BeautifulSoup(html, 'lxml')
all_links= soup.find_all('a')
print (all_links)

错误-urllib.error.HTTPError:HTTP错误403:禁止

方法2-这里我传递代理ip地址（根据youtube视频）

error-requests.exceptions.ProxyError:HTTPSConnectionPool（host='www.enfsolar.com'，port=443）：url:/（由ProxyError（'无法连接到代理'）、NewConnectionError（'：无法建立新连接：[WinError 10061]无法建立连接，因为目标计算机主动拒绝了它））导致的重试次数超过了最大值

我不熟悉网络垃圾，请提前告诉我如何使用代理。

您使用的代理看起来像是一个公共代理，它们不可靠，并且经常停机。你所犯的错误就是这么说的。您无法连接到代理服务器，请尝试使用不同的代理服务器或更好的专用代理服务器。你可以花一美元买一个。还有一点需要注意的是，你的dict有两个相同的键，应该是这样的

{ "https":'191.252.196.160:8080',
 "http":'191.252.196.160:8080'    
 }

因此，如果他们阻止了你的访问，你应该停止违反他们的条款。你有没有申请过删除该页面的许可？@NicoHaase已经让网站的一些标签打开了一段时间，收到一条消息说数据使用量很大（我没有），而且他们说需要3个月才能解除阻止。所以，你应该等着那个块从你身上移除——我认为他们有充分的理由这样做，如果他们再次抓到你，他们可能会阻止你更长的时间谢谢，但没用说max reties用url超过了

{ "https":'191.252.196.160:8080',
 "http":'191.252.196.160:8080'    
 }