Web scraping 解释robots.txt与使用条款_Web Scraping_Web Crawler_Robots.txt_Data Science_Craigslist

Web scraping 解释robots.txt与使用条款

web-scraping web-crawler

Web scraping 解释robots.txt与使用条款,web-scraping,web-crawler,robots.txt,data-science,craigslist,Web Scraping,Web Crawler,Robots.txt,Data Science,Craigslist,我对抓取craigslist感兴趣，仅仅是为了对博客文章进行数据分析（即，没有商业或财务收益，没有发布/发送电子邮件，没有个人数据收集，没有共享抓取的数据）。他们的robots.txt文件如下所示： User-agent: * Disallow: /reply Disallow: /fb/ Disallow: /suggest Disallow: /flag Disallow: /mf Disallow: /eaf 我不打算访问这些目录，只想查看帖子，然后从帖子正文中收集文本。在robots.

我对抓取craigslist感兴趣，仅仅是为了对博客文章进行数据分析（即，没有商业或财务收益，没有发布/发送电子邮件，没有个人数据收集，没有共享抓取的数据）。他们的robots.txt文件如下所示：

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf

我不打算访问这些目录，只想查看帖子，然后从帖子正文中收集文本。在robots.txt文件中似乎不允许这样做。但是，具有以下条目（相关位以粗体显示）：

使用。您同意不使用或提供与CL交互或互操作的软件（通用web浏览器和电子邮件客户端除外，或我们明确许可的软件）或服务，例如用于下载、上载、发布、标记、发送电子邮件、搜索或移动使用禁止使用机器人、爬行器、脚本、刮刀、爬虫等，禁止误导、未经请求、非法和/或垃圾帖子/电子邮件。您同意不收集用户的个人和/或联系信息（“PI”）

那么，我应该假设我的机器人在整个网站上被禁止，还是仅仅在robots.txt中的不允许目录中被禁止？如果是前者，那么我对robots.txt文件有什么误解？如果是后者，那么我可以假设他们不会禁止我的IP，因为我遵守robots.txt吗？
他们以rss格式提供数据。在右下角有一个rss链接，可以将您带到？format=rss
例如：

我的猜测是，如果你正在重新发布帖子内容，收集垃圾邮件等，这类事情是不允许的。这可能取决于你如何使用数据。如果你只是收集统计信息，也许可以接受，但我真的不知道。对律师来说可能是个更好的问题。
可能吧。我只是想知道OP中提到的冲突是否表明他们有一定程度的疏忽，或者如果没有人真正关心robots.txt，我不认为robots.txt和tos真的有关系。Robots.txt定义了他们希望搜索引擎索引的内容，tos定义了允许用户使用网站的方式。