Web scraping 搜索机器人检测

Web scraping 搜索机器人检测,web-scraping,bots,search-engine-bots,Web Scraping,Bots,Search Engine Bots,是否有可能防止网站被任何刮刀刮伤,但同时允许搜索引擎解析您的内容 仅仅检查用户代理并不是最好的选择,因为很容易模拟它们 JavaScript检查可以是一个选项(GoogleExecuteJS),但是一个好的解析器也可以做到这一点 有什么想法吗?检查链接访问时间是可能的,换句话说,如果首页被点击,那么首页上的链接都会“快速”被点击 更简单的是,在页面中删除一些隐藏的链接;机器人将紧随其后,人们几乎永远不会。使用Luke!:) 检查用户代理,查看它是否将自己标识为搜索引擎机器人 如果是,请获取请求页

是否有可能防止网站被任何刮刀刮伤,但同时允许搜索引擎解析您的内容

仅仅检查用户代理并不是最好的选择,因为很容易模拟它们

JavaScript检查可以是一个选项(GoogleExecuteJS),但是一个好的解析器也可以做到这一点


有什么想法吗?

检查链接访问时间是可能的,换句话说,如果首页被点击,那么首页上的链接都会“快速”被点击

更简单的是,在页面中删除一些隐藏的链接;机器人将紧随其后,人们几乎永远不会。使用Luke!:)

  • 检查用户代理,查看它是否将自己标识为搜索引擎机器人
  • 如果是,请获取请求页面的IP地址
  • 反向DNS查找IP地址以获取主机名
  • 转发DNS查找主机名以获取IP地址

  • 谷歌的帮助文章中也提供了同样的想法,但是,它不会也阻止搜索引擎机器人吗?@user584397大多数合法的搜索机器人都这样认为,不是吗?我的意思是,你试图做一些本质上不可能的事情,因为任何机器人都可以完全执行页面,了解隐藏的内容,设置随机延迟以模拟人类浏览等等。你的期望必须合理,无论你做什么都应该有合理的投资回报率。是的,这就是我需要的。谢谢:)