Web crawler Robots.txt：仅允许主要SE_Web Crawler_Robots.txt

Web crawler Robots.txt：仅允许主要SE

web-crawler

Web crawler Robots.txt：仅允许主要SE,web-crawler,robots.txt,Web Crawler,Robots.txt,有没有办法配置robots.txt，让网站只接受谷歌、雅虎的访问！MSN蜘蛛呢？为什么任何做坏事的人（例如，收集电子邮件地址发送垃圾邮件）都会忽略robots.txt。所以你只会阻止合法的搜索引擎，因为robots.txt合规是自愿的但是，如果你坚持这样做，那就是robots.txt中的用户代理：行的作用 User-agent: googlebot Disallow: User-agent: * Disallow: / 当然，所有其他搜索引擎都有你想要的流量。有一个部分列表。用户代理

有没有办法配置robots.txt，让网站只接受谷歌、雅虎的访问！MSN蜘蛛呢？

为什么

任何做坏事的人（例如，收集电子邮件地址发送垃圾邮件）都会忽略robots.txt。所以你只会阻止合法的搜索引擎，因为robots.txt合规是自愿的

但是，如果你坚持这样做，那就是robots.txt中的

用户代理：

行的作用

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

当然，所有其他搜索引擎都有你想要的流量。有一个部分列表。

用户代理：* 禁止：/ 用户代理：谷歌机器人允许：/ 用户代理：Slurp 允许：/ 用户代理：msnbot 禁止：

是雅虎的机器人吗？众所周知，robots.txt是爬虫程序必须遵守的标准，因此只有行为良好的代理才会这样做。所以，放不放并不重要

如果您有一些数据，但没有显示在网站上，您可以更改权限并提高安全性。

根据您所说的国家，有3个以上的主要搜索引擎。Facebook似乎只列出了合法的网站：

因此，您的robots.txt可以是：

User-agent: * Disallow: / User-agent: Googlebot Allow: / User-agent: Slurp Allow: / User-Agent: msnbot Disallow:

robots.txt与“站点接受”无关。这只是一个张贴的规则列表，行为良好的代理应该遵守这些规则。你违反规则的唯一办法是使用不同的机制来禁止ip或用户代理。我同意你的看法：我的英语很差，无法更好地表达这个概念。由于蜘蛛会在你的服务器上引发很多活动，我只想允许访问主要SE（主要是谷歌）的蜘蛛这会带来访问我的网站。原因是我要启动一个AmazonEC2VPS，不想为这么多蜘蛛可能造成的流量和cpu使用付费。也许这没有什么意义，但这个想法对我来说似乎很合理。@user2027230你显然没有领会互联网的意图，那就是让你的数据（对所有人）公开可用。@Marcus不是对那些破坏你的网站、消耗你的服务器资源、破坏你的服务器并使你的网站无法使用的人。谷歌、MSN、，雅虎还有其他蜘蛛，你可能想

允许（例如msnbot媒体，bingbot）。此外，bingbot是我在运营网站的日志中看到最多的微软蜘蛛。Facebook机器人呢？我的网站每天访问量越来越多，我还以为这是一个机器人访问。我想阻止来自机器人的访问，这样上面的robots.txt代码可以阻止所有其他访问，并允许访问谷歌、雅虎和msn？这对我有用吗？“我只对大玩家刮掉我的网站没问题”对小的、有前途的玩家不好。我希望我能把你的“为什么”再投票一千次。我的意思是，如果你对目前的状况很满意，即每个人都在谷歌的圈内，那么无论如何，把所有其他的爬虫都排除在外。我不同意，问题是，有很多未来的玩家，这对带宽造成了太大的压力，特别是如果你有一个每天有数千个新链接的大型网站。。。然后，你可能想摆脱那些只占互联网搜索量1%的人，选择大3instead@jjj如果某个特定的机器人正在攻击性地抓取你的网站，你可以使用robots.txt让他们停止。当然，如果只是一个网站屏蔽了除谷歌以外的所有人，没有人会在意。但是，如果有相当一部分网站听从了你的建议，那么robots.txt将成为锁定谷歌垄断地位的标准，其他所有机器人要么不理会它，要么假装是谷歌机器人。
User-agent: Applebot
Allow: /

User-agent: baiduspider
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: msnbot
Allow: /

User-agent: Naverbot
Allow: /

User-agent: seznambot
Allow: /

User-agent: Slurp
Allow: /

User-agent: teoma
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: Yandex
Allow: /

User-agent: Yeti
Allow: /

User-agent: *
Disallow: /