Python 我怎样才能认出一个“a”;“免费停车”;网站?
我有一个很长的URL列表,其中一些是godaddy“免费停放”的 是否有任何技术方法可以在不打开浏览器的情况下识别这些页面? 从技术上讲,该页面是实时的Python 我怎样才能认出一个“a”;“免费停车”;网站?,python,beautifulsoup,python-requests,urllib2,Python,Beautifulsoup,Python Requests,Urllib2,我有一个很长的URL列表,其中一些是godaddy“免费停放”的 是否有任何技术方法可以在不打开浏览器的情况下识别这些页面? 从技术上讲,该页面是实时的 requests.head('url').status\u code 返回200,因此没有帮助 尝试获取内容时,我只收到“启用Javascript…”消息 我还尝试使用一些元标记,但它们在BeautifulSoup中不可见 硒可能会有帮助,但我想避免这个特定的问题 有没有更简单的解决方案?如果只是godaddy,您可以尝试解析域或尝试使用随机路
requests.head('url').status\u code
返回200,因此没有帮助
尝试获取内容时,我只收到“启用Javascript…”消息
我还尝试使用一些元标记,但它们在BeautifulSoup中不可见
硒可能会有帮助,但我想避免这个特定的问题
有没有更简单的解决方案?如果只是godaddy,您可以尝试解析域或尝试使用随机路径发出请求(例如,
/dkfifhe
)。我测试的少数域都解析为34.102.136.180,并为任何路径返回HTTP 200
当然,这可以随时更改,并且可能在其他停车场站点上不起作用,sedo解析为91.195.241.137,包括所有子域(godaddy返回nxdomain表示随机子域,规范裸域表示www),但返回403表示任何路径
根据您的列表中有多少独特的停车场,您也可以只查看停车场列表提供商,并为所有这些站点编写特殊脚本
另一种选择是,一些DNS提供商允许过滤驻留的域,所以您可以尝试针对它们进行解析。服务推荐是离题的,所以你可以自己用谷歌搜索