使用Python抓取网站_Python_Web Scraping_Tor

使用Python抓取网站

python web-scraping

使用Python抓取网站,python,web-scraping,tor,Python,Web Scraping,Tor,我正在编写一个简单的Python代码，用于打印TOR站点（.洋葱站点）的html。这是我的密码： import requests import json proxies = { 'http': 'socks5h://127.0.0.1:9050', 'https': 'socks5h://127.0.0.1:9050' } data = requests.get("<<.onion url>>", proxies=proxies).text print

我正在编写一个简单的Python代码，用于打印TOR站点（.洋葱站点）的html。这是我的密码：

import requests
import json

proxies = {
    'http': 'socks5h://127.0.0.1:9050',
    'https': 'socks5h://127.0.0.1:9050'
}

data = requests.get("<<.onion url>>", proxies=proxies).text
print(data)

有没有一个原因，为什么这是不工作的一些洋葱网站

（例如，此url为上述代码抛出一个错误：

http://zqktlwi4fecvo6ri.onion

）

即使使用不同的TOR电路，是否每次都会发生这种情况？可能有问题的站点正在阻止/允许具有特定用户代理字符串、cookie、仲裁或其他标题的客户端。对于有效的站点，它们每次都有效。对于出现错误的站点，它们每次都会出现错误。当我尝试使用TOR浏览器手动进入该站点时，内容会立即出现，而无需任何验证或授权。但是，出于某种原因，用python删除html内容会引发一个错误。我会尝试检查TOR浏览器访问网站时发送的标题，看看是否可以用python模拟这些标题。

http.client.RemoteDisconnected: Remote end closed connection without response