Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/sqlite/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler 如何防止除优秀爬虫(谷歌、必应、雅虎)之外的所有爬虫访问网站内容?_Web Crawler - Fatal编程技术网

Web crawler 如何防止除优秀爬虫(谷歌、必应、雅虎)之外的所有爬虫访问网站内容?

Web crawler 如何防止除优秀爬虫(谷歌、必应、雅虎)之外的所有爬虫访问网站内容?,web-crawler,Web Crawler,我只想让谷歌,必应,雅虎抓取我的网站来建立索引。但我不希望我的对手网站使用爬行服务窃取我的网站内容。我该怎么办?你可以阻止谷歌等为你的网站编制索引,但你无法阻止恶意爬虫这么做。如果有人想要窃取你的内容,他们很可能不会在意,也不会遵守这些限制 我能想到的唯一选择是知道它们从哪里爬来,并阻止它们查看网站。我希望世界能够找到我,但我希望自己不被人看见?我们中至少有一个人感到困惑…为什么不尝试跟踪浏览模式?如果你得到大量的点击或奇怪的浏览模式,而这些模式不是来自一个人抛出的验证码页面。尝试使用自定义爬网

我只想让谷歌,必应,雅虎抓取我的网站来建立索引。但我不希望我的对手网站使用爬行服务窃取我的网站内容。我该怎么办?

你可以阻止谷歌等为你的网站编制索引,但你无法阻止恶意爬虫这么做。

如果有人想要窃取你的内容,他们很可能不会在意,也不会遵守这些限制


我能想到的唯一选择是知道它们从哪里爬来,并阻止它们查看网站。

我希望世界能够找到我,但我希望自己不被人看见?我们中至少有一个人感到困惑…

为什么不尝试跟踪浏览模式?如果你得到大量的点击或奇怪的浏览模式,而这些模式不是来自一个人抛出的验证码页面。

尝试使用自定义爬网器对google.com进行爬网,看看它们能做什么,你也可以这样做:)。浏览模式是解决问题的关键:)。

检测爬网的方法有很多,但当我们需要区分好的爬网程序和坏的爬网程序时,这很困难。但有一种方法可以做到这一点。实际上,你必须使用你网站上的隐藏链接,这将检测到所有的爬虫和良好的爬虫的基础上,用户代理不让他们阅读隐藏链接。这将帮助你很多,不是100%,但超过70%。我试过了

有两种类型的爬虫程序 1.无渲染爬虫,可以请求您的网站内容,而不使用任何其他技术,如css,javascript,当然它是无渲染的 2.呈现的爬虫程序可能与您正在使用的大多数浏览器完全相同

为了防止所有爬虫,你可能想把验证码放在你的网站上,这很烦人。但为了允许某个爬虫,您可以放置一些litle脚本来监视和防止坏爬虫,原因如下: 1.浏览器代理 2.ip地址在一段时间内可以在您的站点上浏览多少页
3.检查用户是否可以执行JavaScript(不推荐,因为谷歌可能也会使用无渲染爬虫)

这是一个复杂的问题,但确保可以解决或最小化它

完美的方案是应用一些复杂的IA技术来识别模式,并不断地阻止、禁止它们。您可以将其视为对业务的安全威胁,但请记住,您需要在这里衡量权衡。例如,如果主要原因是避免浪费带宽,那么花大量的钱在一个完美的解决方案上是不合理的或不补偿的。 明白我的意思吗


我知道这个问题太老了,但也许有人可以站在这里看看另一种观点

您需要阻止爬虫的IP地址

爬虫程序新的IP地址-


这需要使用robots.txt。ServerFault.com是问这个问题的好地方。OP关注的是那些不尊重机器人的恶意用户。TXT可能会找一些用户代理黑名单在一定程度上会有所帮助。(通过重定向到404(或其他)对于被列入黑名单的用户代理。我只想对爬行引擎应用白名单访问控制。当然我需要我的网站是由谷歌、必应、雅虎在其标题、描述上爬行的,但没有内容。其他恶意爬行系统不遵守流行规则,因此我们的信息可以在未经许可的情况下被窃取。感谢您的回复r、 但这毫无意义。是的,如果我知道他们使用哪个来源进行盗窃,这是真的。但事实上我不知道,所以我很困惑如何应用基于白名单的访问控制(而不是黑名单)对于爬行系统。对。如果爬行程序遇到足够的麻烦,它可以使自己看起来完全像合法用户。这是一个复杂的问题,但肯定可以解决或最小化。非常感谢。我将尝试浏览模式。