Web crawler 如何防止除优秀爬虫（谷歌、必应、雅虎）之外的所有爬虫访问网站内容？_Web Crawler

Web crawler 如何防止除优秀爬虫（谷歌、必应、雅虎）之外的所有爬虫访问网站内容？

web-crawler

Web crawler 如何防止除优秀爬虫（谷歌、必应、雅虎）之外的所有爬虫访问网站内容？,web-crawler,Web Crawler,我只想让谷歌，必应，雅虎抓取我的网站来建立索引。但我不希望我的对手网站使用爬行服务窃取我的网站内容。我该怎么办？你可以阻止谷歌等为你的网站编制索引，但你无法阻止恶意爬虫这么做。如果有人想要窃取你的内容，他们很可能不会在意，也不会遵守这些限制我能想到的唯一选择是知道它们从哪里爬来，并阻止它们查看网站。我希望世界能够找到我，但我希望自己不被人看见？我们中至少有一个人感到困惑…为什么不尝试跟踪浏览模式？如果你得到大量的点击或奇怪的浏览模式，而这些模式不是来自一个人抛出的验证码页面。尝试使用自定义爬网

我只想让谷歌，必应，雅虎抓取我的网站来建立索引。但我不希望我的对手网站使用爬行服务窃取我的网站内容。我该怎么办？

你可以阻止谷歌等为你的网站编制索引，但你无法阻止恶意爬虫这么做。

如果有人想要窃取你的内容，他们很可能不会在意，也不会遵守这些限制

我能想到的唯一选择是知道它们从哪里爬来，并阻止它们查看网站。

我希望世界能够找到我，但我希望自己不被人看见？我们中至少有一个人感到困惑…

为什么不尝试跟踪浏览模式？如果你得到大量的点击或奇怪的浏览模式，而这些模式不是来自一个人抛出的验证码页面。

尝试使用自定义爬网器对google.com进行爬网，看看它们能做什么，你也可以这样做：）。浏览模式是解决问题的关键：）。

检测爬网的方法有很多，但当我们需要区分好的爬网程序和坏的爬网程序时，这很困难。但有一种方法可以做到这一点。实际上，你必须使用你网站上的隐藏链接，这将检测到所有的爬虫和良好的爬虫的基础上，用户代理不让他们阅读隐藏链接。这将帮助你很多，不是100%，但超过70%。我试过了

有两种类型的爬虫程序 1.无渲染爬虫，可以请求您的网站内容，而不使用任何其他技术，如css，javascript，当然它是无渲染的 2.呈现的爬虫程序可能与您正在使用的大多数浏览器完全相同

为了防止所有爬虫，你可能想把验证码放在你的网站上，这很烦人。但为了允许某个爬虫，您可以放置一些litle脚本来监视和防止坏爬虫，原因如下： 1.浏览器代理 2.ip地址在一段时间内可以在您的站点上浏览多少页

3.检查用户是否可以执行JavaScript（不推荐，因为谷歌可能也会使用无渲染爬虫）

这是一个复杂的问题，但确保可以解决或最小化它

完美的方案是应用一些复杂的IA技术来识别模式，并不断地阻止、禁止它们。您可以将其视为对业务的安全威胁，但请记住，您需要在这里衡量权衡。例如，如果主要原因是避免浪费带宽，那么花大量的钱在一个完美的解决方案上是不合理的或不补偿的。明白我的意思吗

我知道这个问题太老了，但也许有人可以站在这里看看另一种观点

您需要阻止爬虫的IP地址

爬虫程序新的IP地址-

这需要使用robots.txt。ServerFault.com是问这个问题的好地方。OP关注的是那些不尊重机器人的恶意用户。TXT可能会找一些用户代理黑名单在一定程度上会有所帮助。（通过重定向到404（或其他）对于被列入黑名单的用户代理。我只想对爬行引擎应用白名单访问控制。当然我需要我的网站是由谷歌、必应、雅虎在其标题、描述上爬行的，但没有内容。其他恶意爬行系统不遵守流行规则，因此我们的信息可以在未经许可的情况下被窃取。感谢您的回复r、但这毫无意义。是的，如果我知道他们使用哪个来源进行盗窃，这是真的。但事实上我不知道，所以我很困惑如何应用基于白名单的访问控制（而不是黑名单）对于爬行系统。对。如果爬行程序遇到足够的麻烦，它可以使自己看起来完全像合法用户。这是一个复杂的问题，但肯定可以解决或最小化。非常感谢。我将尝试浏览模式。