Web scraping 允许刮网吗？_Web Scraping

Web scraping 允许刮网吗？

web-scraping

Web scraping 允许刮网吗？,web-scraping,Web Scraping,我正在做一个项目，需要从另一个网站获得某些统计数据，我创建了一个HTML刮板，每15分钟自动获取一次数据。但是，我现在停止了bot，因为在他们的使用条款中，他们提到他们不允许这样做我真的很想尊重这一点，特别是如果有法律禁止我获取这些数据，但我已经通过电子邮件联系他们好几次了，没有一个答案，所以现在我得出结论，如果数据合法，我将简单地获取数据在某些论坛上，我读到这是合法的，但我更希望在StackOverflow上得到一个更“精确”的答案让我们假设这实际上并不违法，他们会有任何软件来发现我的机

我正在做一个项目，需要从另一个网站获得某些统计数据，我创建了一个HTML刮板，每15分钟自动获取一次数据。但是，我现在停止了bot，因为在他们的使用条款中，他们提到他们不允许这样做

我真的很想尊重这一点，特别是如果有法律禁止我获取这些数据，但我已经通过电子邮件联系他们好几次了，没有一个答案，所以现在我得出结论，如果数据合法，我将简单地获取数据

在某些论坛上，我读到这是合法的，但我更希望在StackOverflow上得到一个更“精确”的答案

让我们假设这实际上并不违法，他们会有任何软件来发现我的机器人每15分钟进行几次连接吗

另外，当谈到获取他们的数据时，我们谈论的是每个“团队”的一个数字，我将把这个数字转入我们自己的数字。

该站点的根文件夹中必须有

robots.txt

文件

有指定的路径，禁止使用刮刀进行骚扰，以及允许使用的路径（指定了可接受的超时）

如果该文件不存在-任何内容都是允许的，并且您对网站所有者未能提供该信息不承担任何责任

另外，你可以找到一些关于机器人排除标准的解释，我将引用Pablo Hoffman（Scrapinghub联合创始人）对“什么是网络刮取的合法性？”的回答，我在其他网站上发现：

第一件事：我不是律师，这些评论只是根据我在工作的经验，请寻求法律援助相应地提供援助

<> P>当从网站上剔除<强>公共数据< /强>时要考虑的一些事项（注意以下地址仅美国法律）：

只要它们不以破坏性的速度爬行，刮刀就不会违反任何合同（以使用条款的形式）或犯罪（定义见《计算机欺诈和滥用法案》）
网站的用户协议被视为浏览协议，因为公司没有提供足够的网站访问者的条款
Scrapers以访问者身份访问网站数据，通过遵循类似于搜索引擎的路径。这是可以做到的未注册为用户（并明确接受任何条款）
在阮诉。巴诺公司（Barnes&Noble，Inc.）的法院认为网页底部的使用条款链接不足以 “引起建设性的通知。”换句话说，什么都没有在一个公共页面上，这意味着仅仅访问信息受任何合同条款的约束。刮刀给因此，既不明确也不默许任何协议不违反合同
例如，社交网络将成为用户的价值（基于公共页面上的行动号召）分配为以下能力：i）访问完整的个人资料，ii）识别普通朋友/关系，iii）被介绍给他人，以及iv）直接联系成员。只要scraper不尝试执行任何这些操作，它们就不会获得对其服务的“未经授权的访问”，因此不会违反
对涉及的法律问题的全面评估可以在这里看到：

我投票结束这个问题，因为它要求屏幕抓取的合法性。这取决于许多无法在这里合理回答的因素。答案是“这取决于”@ankhzet不同的司法管辖区有不同的法律。@DanielA.White，想象一个对话框：网站管理员：“我说，

爬行延迟：5>robots.txt

”。机器人：“

好的……5分钟内不要超过一次……”

。站长：“不！坏！坏机器人！走开！”。。。这就是你的意思吗？LOL XD法律问题由于其广泛的性质而脱离了主题。我会找律师的，肇事逃逸？很好的意识形态…除非他们没有佩戴“请不要打我”的标志。虽然阅读robots.txt和只允许爬行的页面是合乎道德的，但这是不合法的。这是我认为我能得到的最接近的答案，所以我会将此标记为答案。非常感谢。