Node.js 如何检测Nodejs服务器上的爬虫流量

Node.js 如何检测Nodejs服务器上的爬虫流量,node.js,express,traffic,Node.js,Express,Traffic,我已经开发了nodejsexpress服务器,我很担心爬虫流量……我的意思是,如果有人开始向我的服务器发送请求,那么如何检测或避免这种情况 提前谢谢。很难说清楚你到底在问什么 如果你真正想问的是,当一个爬虫向你的网站发出请求时,你如何识别它,那么所有表现良好的爬虫(比如来自谷歌的爬虫)都会在请求中识别自己。你可以看到谷歌爬虫是如何做到这一点的 如果您真正想问的是,如何保护您的服务器不受一次流量过大的情况的影响,而其中一些流量来自爬虫,那么这是一个非常广泛的问题,需要大量关于您的特定服务器实例、它

我已经开发了nodejsexpress服务器,我很担心爬虫流量……我的意思是,如果有人开始向我的服务器发送请求,那么如何检测或避免这种情况


提前谢谢。

很难说清楚你到底在问什么

如果你真正想问的是,当一个爬虫向你的网站发出请求时,你如何识别它,那么所有表现良好的爬虫(比如来自谷歌的爬虫)都会在请求中识别自己。你可以看到谷歌爬虫是如何做到这一点的

如果您真正想问的是,如何保护您的服务器不受一次流量过大的情况的影响,而其中一些流量来自爬虫,那么这是一个非常广泛的问题,需要大量关于您的特定服务器实例、它当前支持的规模等的信息。。。这里有一篇关于一般主题的文章:

对于谷歌来说,你可以告诉它你网站的最大抓取率应该是多少。请参见标题为“获取说明”的谷歌页面,尽管此设置仅在90天内有效,因此当您首次向您的站点添加爬虫希望看到的大量新内容时,它最有用


注意:您还调用了一个文件来指导爬虫避免访问站点的哪些部分。

很难说出您在这里真正想问什么

如果你真正想问的是,当一个爬虫向你的网站发出请求时,你如何识别它,那么所有表现良好的爬虫(比如来自谷歌的爬虫)都会在请求中识别自己。你可以看到谷歌爬虫是如何做到这一点的

如果您真正想问的是,如何保护您的服务器不受一次流量过大的情况的影响,而其中一些流量来自爬虫,那么这是一个非常广泛的问题,需要大量关于您的特定服务器实例、它当前支持的规模等的信息。。。这里有一篇关于一般主题的文章:

对于谷歌来说,你可以告诉它你网站的最大抓取率应该是多少。请参见标题为“获取说明”的谷歌页面,尽管此设置仅在90天内有效,因此当您首次向您的站点添加爬虫希望看到的大量新内容时,它最有用

注意:您还调用了一个文件来指导爬虫避免访问站点的哪些部分