Seo 谷歌搜索结果显示我的网站,即使我';我在robots.txt中不允许这样做

Seo 谷歌搜索结果显示我的网站,即使我';我在robots.txt中不允许这样做,seo,robots.txt,Seo,Robots.txt,我的临时站点显示在搜索结果中,尽管我已指定不希望对该站点进行爬网。以下是临时站点的my robots.txt文件的内容: User-agent: Mozilla/4.0 (compatible; ISYS Web Spider 9) Disallow: User-agent: * Disallow: / 这里有什么我做错了吗?你是机器人,文件看起来很干净,但请记住谷歌、雅虎、必应等网站不需要爬网来索引它 有一个很好的机会,或者是一个不太礼貌的机器人偶然发现了它。一旦有人发现你的网站,这些天似

我的临时站点显示在搜索结果中,尽管我已指定不希望对该站点进行爬网。以下是临时站点的my robots.txt文件的内容:

User-agent: Mozilla/4.0 (compatible; ISYS Web Spider 9)
Disallow:

User-agent: *
Disallow: /

这里有什么我做错了吗?

你是机器人,文件看起来很干净,但请记住谷歌、雅虎、必应等网站不需要爬网来索引它

有一个很好的机会,或者是一个不太礼貌的机器人偶然发现了它。一旦有人发现你的网站,这些天似乎每个人都得到了他们的手上。我也快疯了

登台时的一个好的经验法则是:

  • 在将robots文件发布到生产站点之前,请始终测试它是否存在与语法相关的任何疏忽。试试看,或者
  • 2.登台时密码保护您的内容。即使这有点虚假,也要在索引根目录下添加登录名和密码。这对你的粉丝和测试人员来说是额外的一步,但如果你想让你的头发里不再有礼貌或者不礼貌的机器人,那么这是值得的

    3.根据项目的不同,您可能不想使用实际域进行测试。即使我有一个静态的ip,有时也会被滥用,或者转移到我的受密码保护的站点。因此,例如,如果我想展示我的域名ihatebots.com:),我只需转到dnsdynamic或noip(顺便说一句,它们是免费的)并创建一个假域名,例如:ihatebots.user32.comsomthingTotalyRandom.user32.com,然后将我的ip地址分配给它。这样,即使有人抓取我的登台项目——我的原始域名:ihatebots.com,也不会从任何类型的搜索引擎结果中受到影响(顺便说一句,它的记录也是如此)

    记住,全世界每天24小时都有数十亿美元用于寻找你,而且这个数字还在不断增加。这几天很艰难。在登台时要有创意,并尽可能始终使用密码保护


    祝你好运

    您的机器人文件看起来很干净,但请记住,Google、Yahoo、Bing等不需要对您的网站进行爬网以编制索引

    有一个很好的机会,或者是一个不太礼貌的机器人偶然发现了它。一旦有人发现你的网站,这些天似乎每个人都得到了他们的手上。我也快疯了

    登台时的一个好的经验法则是:

  • 在将robots文件发布到生产站点之前,请始终测试它是否存在与语法相关的任何疏忽。试试看,或者
  • 2.登台时密码保护您的内容。即使这有点虚假,也要在索引根目录下添加登录名和密码。这对你的粉丝和测试人员来说是额外的一步,但如果你想让你的头发里不再有礼貌或者不礼貌的机器人,那么这是值得的

    3.根据项目的不同,您可能不想使用实际域进行测试。即使我有一个静态的ip,有时也会被滥用,或者转移到我的受密码保护的站点。因此,例如,如果我想展示我的域名ihatebots.com:),我只需转到dnsdynamic或noip(顺便说一句,它们是免费的)并创建一个假域名,例如:ihatebots.user32.comsomthingTotalyRandom.user32.com,然后将我的ip地址分配给它。这样,即使有人抓取我的登台项目——我的原始域名:ihatebots.com,也不会从任何类型的搜索引擎结果中受到影响(顺便说一句,它的记录也是如此)

    记住,全世界每天24小时都有数十亿美元用于寻找你,而且这个数字还在不断增加。这几天很艰难。在登台时要有创意,并尽可能始终使用密码保护


    祝你好运

    Your robots.txt告诉谷歌不要对页面内容进行爬网/索引

    它并没有告诉谷歌不要将你的URL添加到他们的搜索结果中

    因此,如果你的页面(被robots.txt阻止)链接到其他地方,而谷歌找到了这个链接,它会检查你的robots.txt是否允许爬行。它发现它是被禁止的,但是它仍然有你的URL

    现在谷歌可能会决定在他们的搜索索引中包含这个URL会很有用。但是,由于不允许他们(根据您的robots.txt)获取页面的元数据/内容,他们只使用您的URL本身的关键字以及其他人用来链接到您的页面的锚定/标题文本对其进行索引

    如果你不想让谷歌为你的URL编制索引,你需要使用
    meta
    -
    robots
    ,例如:

     <meta name="robots" content="noindex">
    
    
    

    请参阅谷歌的文档:

    Your robots.txt告诉谷歌不要对页面内容进行爬网/索引

    它并没有告诉谷歌不要将你的URL添加到他们的搜索结果中

    因此,如果你的页面(被robots.txt阻止)链接到其他地方,而谷歌找到了这个链接,它会检查你的robots.txt是否允许爬行。它发现它是被禁止的,但是它仍然有你的URL

    现在谷歌可能会决定在他们的搜索索引中包含这个URL会很有用。但是,由于不允许他们(根据您的robots.txt)获取页面的元数据/内容,他们只使用您的URL本身的关键字以及其他人用来链接到您的页面的锚定/标题文本对其进行索引

    如果你不想让谷歌为你的URL编制索引,你需要使用
    meta
    -
    robots
    ,例如:

     <meta name="robots" content="noindex">
    
    
    

    请参阅谷歌的文档:

    根据他们的网站,谷歌会将robots.txt缓存几天,有时长达一周。你不能期望你今天所做的改变立即得到反映。另外,请查看Google的帮助页面,尤其是最后一部分。根据他们的网站,Google会将robots.txt缓存几天,有时长达一周。你不能期望你今天所做的改变立即得到反映。另外,请查看Google的帮助页面,尤其是最后一部分。