Web crawler 网络爬虫的法律或道德陷阱?

Web crawler 网络爬虫的法律或道德陷阱?,web-crawler,Web Crawler,我的任务是自动比较客户在几个不相关的网上商店的库存。这些店面不提供API,所以我不得不用python编写一个爬虫程序,每周对三个网站的可用产品和价格进行分类和比较 我是否应该期望爬虫的IP地址被禁止,或者是否可以对来源进行法律投诉?这看起来很无害(大约500个http页面请求,每个请求间隔1秒,每周执行一次),但这对我来说是一个全新的领域。道德:你应该遵守,以确保你遵守网站所有者的意愿。Python标准库包括用于此目的的数据。还请注意,某些数据是专有的,其所有者将其视为知识产权。一些网站,如货币

我的任务是自动比较客户在几个不相关的网上商店的库存。这些店面不提供API,所以我不得不用python编写一个爬虫程序,每周对三个网站的可用产品和价格进行分类和比较


我是否应该期望爬虫的IP地址被禁止,或者是否可以对来源进行法律投诉?这看起来很无害(大约500个http页面请求,每个请求间隔1秒,每周执行一次),但这对我来说是一个全新的领域。

道德:你应该遵守,以确保你遵守网站所有者的意愿。Python标准库包括用于此目的的数据。

还请注意,某些数据是专有的,其所有者将其视为知识产权。一些网站,如货币兑换网站、搜索引擎和股市跟踪器,尤其不喜欢他们的数据被抓取,因为他们的业务基本上就是出售你正在抓取的数据

这就是说,在美国,你不能对数据本身进行版权保护——只知道如何格式化数据。因此,根据美国法律,只要不以原始格式(HTML)存储抓取的数据,就可以抓取

但是,在许多欧洲国家,数据本身可以受到版权保护。网络是一个全球性的野兽。来自欧洲的人可以访问您的网站。根据某些国家的法律,这意味着你在这些国家做生意。因此,即使你在美国受到法律保护,也不意味着你不会在世界其他地方被起诉

我的建议是浏览网站,了解使用政策。如果网站明确禁止爬网,那么你就不应该这样做。正如Jim提到的,尊重robots.txt

此外,世界各地的法院都有充足的法律先例使搜索引擎合法化。搜索引擎本身就是贪婪的网络爬虫。另一方面,看起来几乎每年都有至少一家通讯社起诉或试图起诉谷歌进行网络爬网

考虑到以上所有因素,在处理爬网数据时要非常小心。我想说,私人使用是可以的,只要你不超载的服务器。我自己也经常这样做,以获取电视节目时间表等。

是的,你应该这样做(希望因未经授权的联合而被禁止进行屏幕抓取)。此外,不那么谨慎、更具创造性的网站所有者不会阻止你的机器人,而是试图通过发送格式错误的数据使其崩溃/混乱,或者故意向其发送虚假数据

如果您的业务模式基于未经授权的屏幕抓取,它将失败

通常情况下,允许您筛选scrape符合网站所有者的利益,因此您可以获得许可(除非您向他们支付大量费用,否则他们不太可能为您制作稳定的API)

如果他们不给你许可,你可能不应该

一些提示:

  • 为授权联合网站的管理员提供一种机制,要求您停止删除他们的网站,以防您的机器人导致他们出现操作问题。这可能是一个电子邮件地址,但请监视它
  • 如果您无法联系网站所有者以获得许可,请确保他们在需要时可以方便地联系您(在机器人的UA字符串中输入URL或电子邮件地址)
  • 明确屏幕抓取的目的,以及保留和其他策略
如果你诚实、透明地做这一切,你就不太可能被人阻止,除非他们认为你所做的根本上与他们的商业模式背道而驰


如果你的行为卑鄙、隐晦,那么你可能会遭到敌意。

+1。我喜欢你的回答。它看起来像是有人试图探测一个外星行星,同时发出信号并欢呼和平,并且可以跟随你的反应作为向导P