Web scraping 搜索机器人检测_Web Scraping_Bots_Search Engine Bots

Web scraping 搜索机器人检测

web-scraping bots

Web scraping 搜索机器人检测,web-scraping,bots,search-engine-bots,Web Scraping,Bots,Search Engine Bots,是否有可能防止网站被任何刮刀刮伤，但同时允许搜索引擎解析您的内容仅仅检查用户代理并不是最好的选择，因为很容易模拟它们 JavaScript检查可以是一个选项（GoogleExecuteJS），但是一个好的解析器也可以做到这一点有什么想法吗？检查链接访问时间是可能的，换句话说，如果首页被点击，那么首页上的链接都会“快速”被点击更简单的是，在页面中删除一些隐藏的链接；机器人将紧随其后，人们几乎永远不会。使用Luke！：）检查用户代理，查看它是否将自己标识为搜索引擎机器人如果是，请获取请求页

是否有可能防止网站被任何刮刀刮伤，但同时允许搜索引擎解析您的内容

仅仅检查用户代理并不是最好的选择，因为很容易模拟它们

JavaScript检查可以是一个选项（GoogleExecuteJS），但是一个好的解析器也可以做到这一点

有什么想法吗？

检查链接访问时间是可能的，换句话说，如果首页被点击，那么首页上的链接都会“快速”被点击

更简单的是，在页面中删除一些隐藏的链接；机器人将紧随其后，人们几乎永远不会。使用Luke！：）

检查用户代理，查看它是否将自己标识为搜索引擎机器人

如果是，请获取请求页面的IP地址

反向DNS查找IP地址以获取主机名

转发DNS查找主机名以获取IP地址

谷歌的帮助文章中也提供了同样的想法，但是，它不会也阻止搜索引擎机器人吗？@user584397大多数合法的搜索机器人都这样认为，不是吗？我的意思是，你试图做一些本质上不可能的事情，因为任何机器人都可以完全执行页面，了解隐藏的内容，设置随机延迟以模拟人类浏览等等。你的期望必须合理，无论你做什么都应该有合理的投资回报率。是的，这就是我需要的。谢谢：）