Web crawler 网站爬行自动检测
是否可以编写代码来检测网站是否正在对内容进行爬网?一个好的爬网程序Web crawler 网站爬行自动检测,web-crawler,Web Crawler,是否可以编写代码来检测网站是否正在对内容进行爬网?一个好的爬网程序 阅读robots.txt 有一个合适的用户代理 将比普通用户的查询速度更快 但我认为,如果是浏览器或蜘蛛,则不可能进行清晰的检测。一个好的蜘蛛 阅读robots.txt 有一个合适的用户代理 将比普通用户的查询速度更快 但我认为,如果是浏览器或爬行器,则不可能进行清晰的检测。您尝试使用用户代理字符串来识别机器人 不同的机器人似乎具有不同的用户代理字符串: 但是,用户代理字符串很容易被欺骗。您可以尝试使用用户代理字符串来
- 阅读robots.txt
- 有一个合适的用户代理
- 将比普通用户的查询速度更快
- 阅读robots.txt
- 有一个合适的用户代理
- 将比普通用户的查询速度更快
但我认为,如果是浏览器或爬行器,则不可能进行清晰的检测。您尝试使用用户代理字符串来识别机器人 不同的机器人似乎具有不同的用户代理字符串:
但是,用户代理字符串很容易被欺骗。您可以尝试使用用户代理字符串来识别机器人 不同的机器人似乎具有不同的用户代理字符串:
但是,用户代理字符串很容易被欺骗。您可以使用普通机器人程序使用的用户代理字符串列表。您可以使用某种形式的速率检测,并确定非常高的请求速率可能是一个爬行器(或有人偷窥您的整个站点) 也可能有普通机器人使用的IP地址列表,但是一个傻瓜式的检测系统很可能是不可能的
你可以在你的页面上创建一个真正的访问者永远不会点击的链接,并将任何跟随该链接的人标记为蜘蛛。你会让一些人点击链接,但好奇是不可避免的。你可以使用普通机器人使用的用户代理字符串列表。您可以使用某种形式的速率检测,并确定非常高的请求速率可能是一个爬行器(或有人偷窥您的整个站点) 也可能有普通机器人使用的IP地址列表,但是一个傻瓜式的检测系统很可能是不可能的
你可以在你的页面上创建一个真正的访问者永远不会点击的链接,并将任何跟随该链接的人标记为蜘蛛。无论如何,你都会有人点击链接,但好奇是不可避免的。如果蜘蛛很好,你可以通过它的用户代理,使用现有的用户代理列表来检测它,如。但一个好的蜘蛛网通常也遵循惯例
忽略Robots.txt文件并欺骗其用户代理的机器人很可能也会使用其他方法来隐藏自己是蜘蛛。如果蜘蛛很好,您可以通过其用户代理使用现有用户代理列表来检测它,如。但一个好的蜘蛛网通常也遵循惯例 忽略Robots.txt文件并欺骗其用户代理的机器人很可能也会使用其他方法来隐藏自己是蜘蛛