Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-apps-script/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 我怎样才能认出一个“a”;“免费停车”;网站?_Python_Beautifulsoup_Python Requests_Urllib2 - Fatal编程技术网

Python 我怎样才能认出一个“a”;“免费停车”;网站?

Python 我怎样才能认出一个“a”;“免费停车”;网站?,python,beautifulsoup,python-requests,urllib2,Python,Beautifulsoup,Python Requests,Urllib2,我有一个很长的URL列表,其中一些是godaddy“免费停放”的 是否有任何技术方法可以在不打开浏览器的情况下识别这些页面? 从技术上讲,该页面是实时的 requests.head('url').status\u code 返回200,因此没有帮助 尝试获取内容时,我只收到“启用Javascript…”消息 我还尝试使用一些元标记,但它们在BeautifulSoup中不可见 硒可能会有帮助,但我想避免这个特定的问题 有没有更简单的解决方案?如果只是godaddy,您可以尝试解析域或尝试使用随机路

我有一个很长的URL列表,其中一些是godaddy“免费停放”的 是否有任何技术方法可以在不打开浏览器的情况下识别这些页面? 从技术上讲,该页面是实时的

requests.head('url').status\u code

返回200,因此没有帮助

尝试获取内容时,我只收到“启用Javascript…”消息

我还尝试使用一些元标记,但它们在BeautifulSoup中不可见

硒可能会有帮助,但我想避免这个特定的问题


有没有更简单的解决方案?

如果只是godaddy,您可以尝试解析域或尝试使用随机路径发出请求(例如,
/dkfifhe
)。我测试的少数域都解析为34.102.136.180,并为任何路径返回HTTP 200

当然,这可以随时更改,并且可能在其他停车场站点上不起作用,sedo解析为91.195.241.137,包括所有子域(godaddy返回nxdomain表示随机子域,规范裸域表示www),但返回403表示任何路径

根据您的列表中有多少独特的停车场,您也可以只查看停车场列表提供商,并为所有这些站点编写特殊脚本

另一种选择是,一些DNS提供商允许过滤驻留的域,所以您可以尝试针对它们进行解析。服务推荐是离题的,所以你可以自己用谷歌搜索