Web scraping 利用网络爬虫进行道德教育

Web scraping 利用网络爬虫进行道德教育,web-scraping,web-crawler,Web Scraping,Web Crawler,我最近建立了一个简单的网络爬虫,我希望在网络上使用它一点。我的问题是我应该遵循什么道德准则以及如何遵循它们。我听说了robot.txt文件,如何用python打开它,以及如何使用它?还有其他我需要遵守的道德准则,比如每秒最大站点数等吗? 然后提前发送。是一个简单的文本文件,供网络爬虫使用,网站所有者在其中列出了他们不想由网络爬虫索引的页面。但对于大多数人来说,这并不是一个有趣的信息,你们仍然可以通过向用户假装你们的网络蜘蛛来丢弃它 您对页面的所有请求都将包含代理服务器的()元数据-您是谁-使用F

我最近建立了一个简单的网络爬虫,我希望在网络上使用它一点。我的问题是我应该遵循什么道德准则以及如何遵循它们。我听说了robot.txt文件,如何用python打开它,以及如何使用它?还有其他我需要遵守的道德准则,比如每秒最大站点数等吗? 然后提前发送。

是一个简单的文本文件,供网络爬虫使用,网站所有者在其中列出了他们不想由网络爬虫索引的页面。但对于大多数人来说,这并不是一个有趣的信息,你们仍然可以通过向用户假装你们的网络蜘蛛来丢弃它

您对页面的所有请求都将包含代理服务器的()元数据-您是谁-使用Firefox或类似web spider的Feedly fetcher(Feedly/1.0(+;类似FeedFetcher Google))的用户。您还可以假装为IE 6.0用户

b伦理和道德的范围-不违反刑法。在地下室内容的每个网站上都有一个“隐私”链接,在大多数情况下,该链接被要求参考源材料

有一次,我以每秒15页的速度抓取了一个新闻站点,由于DDoS攻击,我被禁止了10分钟,但当我将两次操作之间的间隔设置为200毫秒时,一切正常。但这取决于服务器配置