Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用python的动态网页爬虫_Python_Selenium_Web Crawler_Dynamic Pages - Fatal编程技术网

使用python的动态网页爬虫

使用python的动态网页爬虫,python,selenium,web-crawler,dynamic-pages,Python,Selenium,Web Crawler,Dynamic Pages,我想在网上读这篇文章,突然有东西冒了出来,我想在我成功地提取了它之后,我想在离线下读它。。。所以,经过4周的试用,我来到了这里,所有的问题都归结为我这个爬虫程序似乎无法阅读网页的内容,即使在所有的骚动之后 最初的问题是,所有的信息都不在一个页面上,所以使用按钮来导航网站本身的内容 我尝试过BeautifulSoup,但它似乎无法很好地解析页面。目前我正在使用硒和铬驱动 crawler无法读取页面的原因似乎是robot.txt文件(单个页面的crawler等待时间为3600,文章大约有10页,这是

我想在网上读这篇文章,突然有东西冒了出来,我想在我成功地提取了它之后,我想在离线下读它。。。所以,经过4周的试用,我来到了这里,所有的问题都归结为我这个爬虫程序似乎无法阅读网页的内容,即使在所有的骚动之后

最初的问题是,所有的信息都不在一个页面上,所以使用按钮来导航网站本身的内容

我尝试过BeautifulSoup,但它似乎无法很好地解析页面。目前我正在使用硒和铬驱动

crawler无法读取页面的原因似乎是robot.txt文件(单个页面的crawler等待时间为3600,文章大约有10页,这是可以忍受的,但如果说100+,会发生什么情况),我不知道如何绕过它或绕过它


有什么帮助吗???

如果robots.txt设置了限制,那么就到此为止。你应该在道德上抓取网页,这意味着如果网站所有者希望你在两次请求之间等待3600秒,那么就这样吧

即使robots.txt没有规定等待时间,你也应该留心。小企业/网站所有者可能不知道这一点,如果你不断敲打一个网站,他们可能会付出高昂的代价