Web scraping 允许刮网吗?

Web scraping 允许刮网吗?,web-scraping,Web Scraping,我正在做一个项目,需要从另一个网站获得某些统计数据,我创建了一个HTML刮板,每15分钟自动获取一次数据。但是,我现在停止了bot,因为在他们的使用条款中,他们提到他们不允许这样做 我真的很想尊重这一点,特别是如果有法律禁止我获取这些数据,但我已经通过电子邮件联系他们好几次了,没有一个答案,所以现在我得出结论,如果数据合法,我将简单地获取数据 在某些论坛上,我读到这是合法的,但我更希望在StackOverflow上得到一个更“精确”的答案 让我们假设这实际上并不违法,他们会有任何软件来发现我的机

我正在做一个项目,需要从另一个网站获得某些统计数据,我创建了一个HTML刮板,每15分钟自动获取一次数据。但是,我现在停止了bot,因为在他们的使用条款中,他们提到他们不允许这样做

我真的很想尊重这一点,特别是如果有法律禁止我获取这些数据,但我已经通过电子邮件联系他们好几次了,没有一个答案,所以现在我得出结论,如果数据合法,我将简单地获取数据

在某些论坛上,我读到这是合法的,但我更希望在StackOverflow上得到一个更“精确”的答案

让我们假设这实际上并不违法,他们会有任何软件来发现我的机器人每15分钟进行几次连接吗


另外,当谈到获取他们的数据时,我们谈论的是每个“团队”的一个数字,我将把这个数字转入我们自己的数字。

该站点的根文件夹中必须有
robots.txt
文件

有指定的路径,禁止使用刮刀进行骚扰,以及允许使用的路径(指定了可接受的超时)

如果该文件不存在-任何内容都是允许的,并且您对网站所有者未能提供该信息不承担任何责任



另外,你可以找到一些关于机器人排除标准的解释,我将引用Pablo Hoffman(Scrapinghub联合创始人)对“什么是网络刮取的合法性?”的回答,我在其他网站上发现:

第一件事:我不是律师,这些评论只是 根据我在工作的经验,请寻求法律援助 相应地提供援助

<> P>当从网站上剔除<强>公共数据< /强>时要考虑的一些事项(注意以下地址仅美国法律):

  • 只要它们不以破坏性的速度爬行,刮刀就不会违反任何合同(以使用条款的形式)或犯罪 (定义见《计算机欺诈和滥用法案》)
  • 网站的用户协议被视为浏览协议,因为公司没有提供足够的 网站访问者的条款
  • Scrapers以访问者身份访问网站数据, 通过遵循类似于搜索引擎的路径。这是可以做到的 未注册为用户(并明确接受任何条款)
  • 在阮诉。巴诺公司(Barnes&Noble,Inc.)的法院认为 网页底部的使用条款链接不足以 “引起建设性的通知。”换句话说,什么都没有 在一个公共页面上,这意味着仅仅访问 信息受任何合同条款的约束。刮刀给 因此,既不明确也不默许任何协议 不违反合同
  • 例如,社交网络将成为用户的价值(基于公共页面上的行动号召)分配为以下能力:i)访问完整的个人资料,ii)识别普通朋友/关系,iii)被介绍给他人,以及iv)直接联系成员。只要scraper不尝试执行任何这些操作,它们就不会获得对其服务的“未经授权的访问”,因此不会违反
  • 对涉及的法律问题的全面评估可以在这里看到:

我投票结束这个问题,因为它要求屏幕抓取的合法性。这取决于许多无法在这里合理回答的因素。答案是“这取决于”@ankhzet不同的司法管辖区有不同的法律。@DanielA.White,想象一个对话框:网站管理员:“我说,
爬行延迟:5>robots.txt
”。机器人:“
好的……5分钟内不要超过一次……”
。站长:“不!坏!坏机器人!走开!”。。。这就是你的意思吗?LOL XD法律问题由于其广泛的性质而脱离了主题。我会找律师的,肇事逃逸?很好的意识形态…除非他们没有佩戴“请不要打我”的标志。虽然阅读robots.txt和只允许爬行的页面是合乎道德的,但这是不合法的。这是我认为我能得到的最接近的答案,所以我会将此标记为答案。非常感谢。