Web crawler 如何识别网络爬虫?

Web crawler 如何识别网络爬虫?,web-crawler,user-agent,Web Crawler,User Agent,我有一个单页应用程序,我使用一个无头浏览器为网络爬虫提供页面,给他们一个非常接近实际用户看到的页面版本 目前,我正在将爬虫用户代理白名单上,包括谷歌、facebook、必应、雅虎和linkedin 我现在希望将其扩展到更健壮的,针对每个用户代理,而不仅仅是这些。这样做的原因是,如果我不接受某个特定的爬虫程序,他们将看到的只是小胡子HTML模板。这对我没有好处 使用巨大的用户代理regex是最好的方法吗?这是每个请求都要做的事情,所以我也需要一些快速的东西…这是一个用户代理列表:(在这里找到:)

我有一个单页应用程序,我使用一个无头浏览器为网络爬虫提供页面,给他们一个非常接近实际用户看到的页面版本

目前,我正在将爬虫用户代理白名单上,包括谷歌、facebook、必应、雅虎和linkedin

我现在希望将其扩展到更健壮的,针对每个用户代理,而不仅仅是这些。这样做的原因是,如果我不接受某个特定的爬虫程序,他们将看到的只是小胡子HTML模板。这对我没有好处


使用巨大的用户代理regex是最好的方法吗?这是每个请求都要做的事情,所以我也需要一些快速的东西…

这是一个用户代理列表:(在这里找到:)

如果太多,您可以实现一个(执行“If exist”测试的内存高效解决方案)

关于白名单和良好实践,您可能也会感兴趣: