Web scraping 解释robots.txt与使用条款

Web scraping 解释robots.txt与使用条款,web-scraping,web-crawler,robots.txt,data-science,craigslist,Web Scraping,Web Crawler,Robots.txt,Data Science,Craigslist,我对抓取craigslist感兴趣,仅仅是为了对博客文章进行数据分析(即,没有商业或财务收益,没有发布/发送电子邮件,没有个人数据收集,没有共享抓取的数据)。他们的robots.txt文件如下所示: User-agent: * Disallow: /reply Disallow: /fb/ Disallow: /suggest Disallow: /flag Disallow: /mf Disallow: /eaf 我不打算访问这些目录,只想查看帖子,然后从帖子正文中收集文本。在robots.

我对抓取craigslist感兴趣,仅仅是为了对博客文章进行数据分析(即,没有商业或财务收益,没有发布/发送电子邮件,没有个人数据收集,没有共享抓取的数据)。他们的robots.txt文件如下所示:

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf
我不打算访问这些目录,只想查看帖子,然后从帖子正文中收集文本。在robots.txt文件中似乎不允许这样做。但是,具有以下条目(相关位以粗体显示):

使用。您同意不使用或提供与CL交互或互操作的软件(通用web浏览器和电子邮件客户端除外,或我们明确许可的软件)或服务,例如用于下载、上载、发布、标记、发送电子邮件、搜索或移动使用禁止使用机器人、爬行器、脚本、刮刀、爬虫等,禁止误导、未经请求、非法和/或垃圾帖子/电子邮件。您同意不收集用户的个人和/或联系信息(“PI”)


那么,我应该假设我的机器人在整个网站上被禁止,还是仅仅在robots.txt中的不允许目录中被禁止?如果是前者,那么我对robots.txt文件有什么误解?如果是后者,那么我可以假设他们不会禁止我的IP,因为我遵守robots.txt吗?

他们以rss格式提供数据。在右下角有一个rss链接,可以将您带到?format=rss

例如:


我的猜测是,如果你正在重新发布帖子内容,收集垃圾邮件等,这类事情是不允许的。这可能取决于你如何使用数据。如果你只是收集统计信息,也许可以接受,但我真的不知道。对律师来说可能是个更好的问题。

可能吧。我只是想知道OP中提到的冲突是否表明他们有一定程度的疏忽,或者如果没有人真正关心robots.txt,我不认为robots.txt和tos真的有关系。Robots.txt定义了他们希望搜索引擎索引的内容,tos定义了允许用户使用网站的方式。