Web scraping 防止Web刮取
我目前是一个开发包含前端客户端的应用程序团队的一员 通过这个客户机,我们发送用户数据,每个用户都有一个用户id,客户机通过RESTful API向服务器询问数据 例如,假设我们有一个图书数据库,用户可以得到作者最后写的3本书。我们重视用户的时间,我们希望用户能够在没有明确注册的情况下开始使用该产品 我们重视我们的数据库,我们使用我们自己的专有软件来填充它,并希望尽可能地保护它 所以基本上问题是: 我们能做些什么来保护自己不被网络抓取 我非常想了解一些保护我们数据的技术,我们想防止用户在作者搜索面板中输入每个作者的名字,并取出每个作者写的前三本书 如有任何阅读建议,将不胜感激Web scraping 防止Web刮取,web-scraping,data-collection,Web Scraping,Data Collection,我目前是一个开发包含前端客户端的应用程序团队的一员 通过这个客户机,我们发送用户数据,每个用户都有一个用户id,客户机通过RESTful API向服务器询问数据 例如,假设我们有一个图书数据库,用户可以得到作者最后写的3本书。我们重视用户的时间,我们希望用户能够在没有明确注册的情况下开始使用该产品 我们重视我们的数据库,我们使用我们自己的专有软件来填充它,并希望尽可能地保护它 所以基本上问题是: 我们能做些什么来保护自己不被网络抓取 我非常想了解一些保护我们数据的技术,我们想防止用户在作者搜索面
我只想提一提,我们知道CAPTCHA,并希望尽可能避免它们防止这种情况的主要策略是:
- 需要注册,因此您可以限制每个用户的请求
- 注册用户和非注册用户的验证码
- IP的速率限制
- 需要JavaScript-编写能够读取JS的刮刀更难
- 机器人拦截和机器人检测(例如请求速率、隐藏链接陷阱)
- 数据中毒。放进没有人想要的书和链接,这些书和链接会让盲目收集一切的机器人停止下载
- 突变。经常更改模板,以便刮取器可能无法找到所需的内容
例如:每天每个IP的第一本书不受验证码保护。但是,为了访问第二本书,需要解决验证码问题。因为您发现Anony Mouse列出的许多项目都不能解决您的问题,所以我想进来提出一个替代方案。您有没有研究过作为服务提供web抓取保护的第三方平台?我将列出市场上可用的一些解决方案,并尝试将它们组合在一起。为了充分披露,我是我正在上市的公司之一的联合创始人之一 网络抓取保护作为核心竞争力:
- 蒸馏网络
- 刺客哨兵
- Akamai科纳
- F5 ASM模块至BigIP负载平衡器
- Imperva Web应用防火墙设备
- Incapsula,Imperva的云Web应用防火墙
- 注册用户和非注册用户的验证码由于OCR软件和验证码农场,验证码已被证明无效
- IP的速率限制这可能会有很高的误报率,因为它将用户集中在共享IP后面。如果他们只是简单地旋转或注释他们使用的IP,也可能错过很多机器人
- 需要JavaScriptSelenium、Phantom和数十种其他刮削工具呈现JavaScript