Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/android/187.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler Robots.txt:仅允许主要SE_Web Crawler_Robots.txt - Fatal编程技术网

Web crawler Robots.txt:仅允许主要SE

Web crawler Robots.txt:仅允许主要SE,web-crawler,robots.txt,Web Crawler,Robots.txt,有没有办法配置robots.txt,让网站只接受谷歌、雅虎的访问!MSN蜘蛛呢?为什么 任何做坏事的人(例如,收集电子邮件地址发送垃圾邮件)都会忽略robots.txt。所以你只会阻止合法的搜索引擎,因为robots.txt合规是自愿的 但是,如果你坚持这样做,那就是robots.txt中的用户代理:行的作用 User-agent: googlebot Disallow: User-agent: * Disallow: / 当然,所有其他搜索引擎都有你想要的流量。有一个部分列表。 用户代理

有没有办法配置robots.txt,让网站只接受谷歌、雅虎的访问!MSN蜘蛛呢?

为什么

任何做坏事的人(例如,收集电子邮件地址发送垃圾邮件)都会忽略robots.txt。所以你只会阻止合法的搜索引擎,因为robots.txt合规是自愿的

但是,如果你坚持这样做,那就是robots.txt中的
用户代理:
行的作用

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /
当然,所有其他搜索引擎都有你想要的流量。有一个部分列表。

用户代理:* 禁止:/ 用户代理:谷歌机器人 允许:/ 用户代理:Slurp 允许:/ 用户代理:msnbot 禁止:


是雅虎的机器人吗?众所周知,robots.txt是爬虫程序必须遵守的标准,因此只有行为良好的代理才会这样做。所以,放不放并不重要


如果您有一些数据,但没有显示在网站上,您可以更改权限并提高安全性。

根据您所说的国家,有3个以上的主要搜索引擎。Facebook似乎只列出了合法的网站:

因此,您的robots.txt可以是:

User-agent: * Disallow: / User-agent: Googlebot Allow: / User-agent: Slurp Allow: / User-Agent: msnbot Disallow:
robots.txt与“站点接受”无关。这只是一个张贴的规则列表,行为良好的代理应该遵守这些规则。你违反规则的唯一办法是使用不同的机制来禁止ip或用户代理。我同意你的看法:我的英语很差,无法更好地表达这个概念。由于蜘蛛会在你的服务器上引发很多活动,我只想允许访问主要SE(主要是谷歌)的蜘蛛这会带来访问我的网站。原因是我要启动一个AmazonEC2VPS,不想为这么多蜘蛛可能造成的流量和cpu使用付费。也许这没有什么意义,但这个想法对我来说似乎很合理。@user2027230你显然没有领会互联网的意图,那就是让你的数据(对所有人)公开可用。@Marcus不是对那些破坏你的网站、消耗你的服务器资源、破坏你的服务器并使你的网站无法使用的人。谷歌、MSN、,雅虎还有其他蜘蛛,你可能想
允许
(例如msnbot媒体,bingbot)。此外,bingbot是我在运营网站的日志中看到最多的微软蜘蛛。Facebook机器人呢?我的网站每天访问量越来越多,我还以为这是一个机器人访问。我想阻止来自机器人的访问,这样上面的robots.txt代码可以阻止所有其他访问,并允许访问谷歌、雅虎和msn?这对我有用吗?“我只对大玩家刮掉我的网站没问题”对小的、有前途的玩家不好。我希望我能把你的“为什么”再投票一千次。我的意思是,如果你对目前的状况很满意,即每个人都在谷歌的圈内,那么无论如何,把所有其他的爬虫都排除在外。我不同意,问题是,有很多未来的玩家,这对带宽造成了太大的压力,特别是如果你有一个每天有数千个新链接的大型网站。。。然后,你可能想摆脱那些只占互联网搜索量1%的人,选择大3instead@jjj如果某个特定的机器人正在攻击性地抓取你的网站,你可以使用robots.txt让他们停止。当然,如果只是一个网站屏蔽了除谷歌以外的所有人,没有人会在意。但是,如果有相当一部分网站听从了你的建议,那么robots.txt将成为锁定谷歌垄断地位的标准,其他所有机器人要么不理会它,要么假装是谷歌机器人。
User-agent: Applebot
Allow: /

User-agent: baiduspider
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: msnbot
Allow: /

User-agent: Naverbot
Allow: /

User-agent: seznambot
Allow: /

User-agent: Slurp
Allow: /

User-agent: teoma
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: Yandex
Allow: /

User-agent: Yeti
Allow: /

User-agent: *
Disallow: /