Web scraping 利用网络爬虫进行道德教育_Web Scraping_Web Crawler

Web scraping 利用网络爬虫进行道德教育

web-scraping web-crawler

Web scraping 利用网络爬虫进行道德教育,web-scraping,web-crawler,Web Scraping,Web Crawler,我最近建立了一个简单的网络爬虫，我希望在网络上使用它一点。我的问题是我应该遵循什么道德准则以及如何遵循它们。我听说了robot.txt文件，如何用python打开它，以及如何使用它？还有其他我需要遵守的道德准则，比如每秒最大站点数等吗？然后提前发送。是一个简单的文本文件，供网络爬虫使用，网站所有者在其中列出了他们不想由网络爬虫索引的页面。但对于大多数人来说，这并不是一个有趣的信息，你们仍然可以通过向用户假装你们的网络蜘蛛来丢弃它您对页面的所有请求都将包含代理服务器的（）元数据-您是谁-使用F

我最近建立了一个简单的网络爬虫，我希望在网络上使用它一点。我的问题是我应该遵循什么道德准则以及如何遵循它们。我听说了robot.txt文件，如何用python打开它，以及如何使用它？还有其他我需要遵守的道德准则，比如每秒最大站点数等吗？然后提前发送。

是一个简单的文本文件，供网络爬虫使用，网站所有者在其中列出了他们不想由网络爬虫索引的页面。但对于大多数人来说，这并不是一个有趣的信息，你们仍然可以通过向用户假装你们的网络蜘蛛来丢弃它

您对页面的所有请求都将包含代理服务器的（）元数据-您是谁-使用Firefox或类似web spider的Feedly fetcher（Feedly/1.0（+；类似FeedFetcher Google））的用户。您还可以假装为IE 6.0用户

b伦理和道德的范围-不违反刑法。在地下室内容的每个网站上都有一个“隐私”链接，在大多数情况下，该链接被要求参考源材料

有一次，我以每秒15页的速度抓取了一个新闻站点，由于DDoS攻击，我被禁止了10分钟，但当我将两次操作之间的间隔设置为200毫秒时，一切正常。但这取决于服务器配置