使用python的动态网页爬虫_Python_Selenium_Web Crawler_Dynamic Pages

使用python的动态网页爬虫

python selenium web-crawler

使用python的动态网页爬虫,python,selenium,web-crawler,dynamic-pages,Python,Selenium,Web Crawler,Dynamic Pages,我想在网上读这篇文章，突然有东西冒了出来，我想在我成功地提取了它之后，我想在离线下读它。。。所以，经过4周的试用，我来到了这里，所有的问题都归结为我这个爬虫程序似乎无法阅读网页的内容，即使在所有的骚动之后最初的问题是，所有的信息都不在一个页面上，所以使用按钮来导航网站本身的内容我尝试过BeautifulSoup，但它似乎无法很好地解析页面。目前我正在使用硒和铬驱动 crawler无法读取页面的原因似乎是robot.txt文件（单个页面的crawler等待时间为3600，文章大约有10页，这是

我想在网上读这篇文章，突然有东西冒了出来，我想在我成功地提取了它之后，我想在离线下读它。。。所以，经过4周的试用，我来到了这里，所有的问题都归结为我这个爬虫程序似乎无法阅读网页的内容，即使在所有的骚动之后

最初的问题是，所有的信息都不在一个页面上，所以使用按钮来导航网站本身的内容

我尝试过BeautifulSoup，但它似乎无法很好地解析页面。目前我正在使用硒和铬驱动

crawler无法读取页面的原因似乎是robot.txt文件（单个页面的crawler等待时间为3600，文章大约有10页，这是可以忍受的，但如果说100+，会发生什么情况），我不知道如何绕过它或绕过它

有什么帮助吗？？？

如果robots.txt设置了限制，那么就到此为止。你应该在道德上抓取网页，这意味着如果网站所有者希望你在两次请求之间等待3600秒，那么就这样吧

即使robots.txt没有规定等待时间，你也应该留心。小企业/网站所有者可能不知道这一点，如果你不断敲打一个网站，他们可能会付出高昂的代价