Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/284.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用代理链接浏览被阻止的网站_Python_Web Scraping_Beautifulsoup - Fatal编程技术网

Python 使用代理链接浏览被阻止的网站

Python 使用代理链接浏览被阻止的网站,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我试图从一个阻止了我的ip地址的网站中提取数据,下面是我尝试过的两种错误方法 方法1-我直接放置代理url来解析网页 from urllib.request import urlopen from bs4 import BeautifulSoup import lxml import time html= urlopen('http://s-s.www.enfsolar.com.prx.proxyunblocker.org/') soup = BeautifulSoup(html, 'lxm

我试图从一个阻止了我的ip地址的网站中提取数据,下面是我尝试过的两种错误方法

方法1-我直接放置代理url来解析网页

from urllib.request import urlopen
from bs4 import BeautifulSoup
import lxml
import time 

html= urlopen('http://s-s.www.enfsolar.com.prx.proxyunblocker.org/')
soup = BeautifulSoup(html, 'lxml')
all_links= soup.find_all('a')
print (all_links)
错误-urllib.error.HTTPError:HTTP错误403:禁止

方法2-这里我传递代理ip地址(根据youtube视频)

error-requests.exceptions.ProxyError:HTTPSConnectionPool(host='www.enfsolar.com',port=443):url:/(由ProxyError('无法连接到代理')、NewConnectionError(':无法建立新连接:[WinError 10061]无法建立连接,因为目标计算机主动拒绝了它))导致的重试次数超过了最大值


我不熟悉网络垃圾,请提前告诉我如何使用代理。

您使用的代理看起来像是一个公共代理,它们不可靠,并且经常停机。你所犯的错误就是这么说的。您无法连接到代理服务器,请尝试使用不同的代理服务器或更好的专用代理服务器。你可以花一美元买一个。还有一点需要注意的是,你的dict有两个相同的键,应该是这样的

{ "https":'191.252.196.160:8080',
 "http":'191.252.196.160:8080'    
 }

因此,如果他们阻止了你的访问,你应该停止违反他们的条款。你有没有申请过删除该页面的许可?@NicoHaase已经让网站的一些标签打开了一段时间,收到一条消息说数据使用量很大(我没有),而且他们说需要3个月才能解除阻止。所以,你应该等着那个块从你身上移除——我认为他们有充分的理由这样做,如果他们再次抓到你,他们可能会阻止你更长的时间谢谢,但没用说max reties用url超过了
{ "https":'191.252.196.160:8080',
 "http":'191.252.196.160:8080'    
 }