Seo robots.txt:除了少数几个之外,不允许所有,为什么不允许?

Seo robots.txt:除了少数几个之外,不允许所有,为什么不允许?,seo,web-crawler,robots.txt,Seo,Web Crawler,Robots.txt,我一直在想,除了Ask、Google、Microsoft和Yahoo之外,不允许任何爬虫程序!从我的网站 这背后的原因是,我从未见过任何其他网络爬虫产生任何流量 我的问题是: 有什么理由不这样做吗 有人这样做过吗 你注意到任何负面影响了吗 更新: 到目前为止,我使用了黑名单方法:如果我不喜欢爬虫,我会将它们添加到不允许列表中。 然而,我不喜欢黑名单,因为这是一个永无止境的故事:总是有更多的爬虫在那里 我不太担心真正丑陋的行为不端的爬虫,它们会被自动检测和阻止。(而且他们通常不会要求robots.

我一直在想,除了Ask、Google、Microsoft和Yahoo之外,不允许任何爬虫程序!从我的网站

这背后的原因是,我从未见过任何其他网络爬虫产生任何流量

我的问题是:

  • 有什么理由不这样做吗
  • 有人这样做过吗
  • 你注意到任何负面影响了吗
  • 更新:
    到目前为止,我使用了黑名单方法:如果我不喜欢爬虫,我会将它们添加到不允许列表中。
    然而,我不喜欢黑名单,因为这是一个永无止境的故事:总是有更多的爬虫在那里

    我不太担心真正丑陋的行为不端的爬虫,它们会被自动检测和阻止。(而且他们通常不会要求robots.txt:)

    然而,许多爬虫并不是真的以任何方式行为不端,它们只是似乎没有为我/我的客户创造任何价值。
    例如,有几个为网站提供动力的爬虫声称他们将成为下一个谷歌;只是更好。我从未见过他们带来的流量,我很怀疑他们是否比上述四个搜索引擎中的任何一个都要好

    更新2:
    一段时间以来,我一直在分析几个站点的流量,似乎对于合理的小型站点,每天有100个独特的人类访客(=我无法识别为非人类的访客)。大约52%的流量是通过自动化流程生成的

    60%的自动访客没有阅读robots.txt,40%(占总流量的21%) 请求robots.txt。(包括Ask、谷歌、微软和雅虎!)


    因此,我的想法是,如果我阻止所有表现良好的爬虫程序,它们似乎不会为我带来任何价值,那么我可以将带宽使用和服务器负载减少12%-17%左右

    虽然其他对您的站点进行爬网的站点可能不会以您的方式发送任何内容,但它们本身可能正在被google等索引,因此添加到您的页面排名中,阻止它们进入您的站点可能会影响这一点

    有什么理由不这样做吗

    你是否想被排除在一些可能包括你的网站,你不知道,并间接带来了很多内容你的方式

    如果一些奇怪的爬虫正在敲打你的网站,吃掉你的带宽,你可能会想,但很可能这些爬虫也不会尊重你的robots.txt

    检查你的日志文件,看看你有哪些爬虫,它们占用了你多少带宽。可能有更直接的方法来阻止正在轰炸你网站的流量。

    互联网是一种发布机制。如果你想把你的网站列入白名单,你是反对的,但那没关系

    你想把你的网站列入白名单吗


    请记住,忽略robots.txt的行为不好的机器人无论如何都不会受到影响(显然),而行为良好的机器人可能存在的原因很好,只是这对您来说是不透明的。

    我唯一担心的是您可能会错过下一件大事

    AltaVista作为搜索引擎有很长一段时间。可能比现在的谷歌还要多。(当时没有bing或Ask,雅虎是一个目录,而不是搜索引擎本身)。当时,除了Altavista之外,其他所有网站都被屏蔽了,他们永远不会看到谷歌的流量,因此也永远不会知道它有多受欢迎,除非他们从另一个渠道听说过,这可能会让他们在一段时间内处于相当不利的地位


    Pagerank倾向于偏向较旧的网站。您不希望看起来比现在更新,因为您无缘无故阻止了通过robots.txt进行访问。这些家伙:现在可能完全没用,但也许5年后,你现在不在他们的索引中这一事实将在下一个大型搜索引擎中对你不利。

    这目前有点尴尬,因为没有“允许”字段。最简单的方法是将所有不允许的文件放在一个单独的目录中,说“stuff”,然后将一个文件放在该目录之上的级别。

    @好的观点,没有考虑到这一点。对于一个被问了三个以上的问题,投反对票和结束投票是怎么回事!几年前?这是保持社区幸福的新动机吗?哦,没有任何评论。从安全角度来看,白名单无疑是最好的方式。然而,如果该策略是一个建议而不是一个命令(如robots.txt),那么当涉及到阻止用户代理时,唯一会注意到的是礼貌的代理,而那些不是你想要阻止的代理。话虽如此,白名单URL没有缺点,可以由您强制执行。所以您知道,任何试图访问“/admin.php”的人都是恶意的,而不仅仅是一个混乱的机器人。另外,您确切地知道要索引哪些内容。