使用Python抓取网站

使用Python抓取网站,python,web-scraping,tor,Python,Web Scraping,Tor,我正在编写一个简单的Python代码,用于打印TOR站点(.洋葱站点)的html。这是我的密码: import requests import json proxies = { 'http': 'socks5h://127.0.0.1:9050', 'https': 'socks5h://127.0.0.1:9050' } data = requests.get("<<.onion url>>", proxies=proxies).text print

我正在编写一个简单的Python代码,用于打印TOR站点(.洋葱站点)的html。这是我的密码:

import requests
import json

proxies = {
    'http': 'socks5h://127.0.0.1:9050',
    'https': 'socks5h://127.0.0.1:9050'
}

data = requests.get("<<.onion url>>", proxies=proxies).text
print(data)
有没有一个原因,为什么这是不工作的一些洋葱网站


(例如,此url为上述代码抛出一个错误:
http://zqktlwi4fecvo6ri.onion

即使使用不同的TOR电路,是否每次都会发生这种情况?可能有问题的站点正在阻止/允许具有特定用户代理字符串、cookie、仲裁或其他标题的客户端。对于有效的站点,它们每次都有效。对于出现错误的站点,它们每次都会出现错误。当我尝试使用TOR浏览器手动进入该站点时,内容会立即出现,而无需任何验证或授权。但是,出于某种原因,用python删除html内容会引发一个错误。我会尝试检查TOR浏览器访问网站时发送的标题,看看是否可以用python模拟这些标题。
http.client.RemoteDisconnected: Remote end closed connection without response