Web crawler 不完整的robots.txt,会发生什么?

Web crawler 不完整的robots.txt,会发生什么?,web-crawler,robots.txt,google-crawlers,Web Crawler,Robots.txt,Google Crawlers,我在一个网站上有一个页面,除了我的页面之外,我没有其他任何访问权限。该网站用于销售各种小产品。 在与他们相处了一年多之后,我使用谷歌广告词来帮助提升自己,我注意到该产品的页面没有一个在谷歌上被索引。当我注意到该站点的robots.txt中没有太多内容时,我想知道这是否与此有关 产品URL采用以下格式: www.example.com/myshopname/[product ID]?q=I[product ID] 而robots.txt只是: 不允许:/*\u转义\u片段_ 没有用户代理。我想

我在一个网站上有一个页面,除了我的页面之外,我没有其他任何访问权限。该网站用于销售各种小产品。 在与他们相处了一年多之后,我使用谷歌广告词来帮助提升自己,我注意到该产品的页面没有一个在谷歌上被索引。当我注意到该站点的robots.txt中没有太多内容时,我想知道这是否与此有关

产品URL采用以下格式:

www.example.com/myshopname/[product ID]?q=I[product ID]
而robots.txt只是:

不允许:/*\u转义\u片段_

没有用户代理。我想知道这是否会对谷歌抓取我的页面有任何影响,或者它会忽略robots.txt,因为没有指定用户代理

我将在这里为您提供更多信息:

robots.txt文件是web服务器上的一个简单文本文件,它告诉webcrawlers是否可以访问文件。 您始终可以访问此文件,因为它不是服务器系统文件的一部分,而是站点的一部分

在你的情况下,我不知道这个
/*\u转义\u片段\u
是什么意思,但是:

User-agent: *
Disallow: /
将阻止对所有爬虫的访问

而这:

User-agent: *
Disallow:
允许完全访问您的网站

User-agent: *
Disallow: /images/
将阻止对指定文件夹的访问

User-agent: *
Disallow: /images
Allow: /images/my_photo.jpg
即使您不允许某个文件夹,您也可以始终授予该文件夹中指定文件的访问权限

User-agent: *
Disallow: /assets.html
将阻止对指定文件的访问

因此,
star
表示所有爬虫程序,如果您想将指令应用于您需要执行的指定爬虫程序:

User-agent: Googlebot
如果您对googlebot特别感兴趣,并且希望查看robot.txt是否正在阻止站点上的文件或文件夹,请访问,以便查看是否正在阻止页面资源

还有必要指出的是,虽然robot.txt可以成为搜索引擎优化的有用工具,但所有常规爬虫程序都会遵守应用的指令


恶意爬虫不关心这些指令

我将在这里为您提供更多信息:

robots.txt文件是web服务器上的一个简单文本文件,它告诉webcrawlers是否可以访问文件。 您始终可以访问此文件,因为它不是服务器系统文件的一部分,而是站点的一部分

在你的情况下,我不知道这个
/*\u转义\u片段\u
是什么意思,但是:

User-agent: *
Disallow: /
将阻止对所有爬虫的访问

而这:

User-agent: *
Disallow:
允许完全访问您的网站

User-agent: *
Disallow: /images/
将阻止对指定文件夹的访问

User-agent: *
Disallow: /images
Allow: /images/my_photo.jpg
即使您不允许某个文件夹,您也可以始终授予该文件夹中指定文件的访问权限

User-agent: *
Disallow: /assets.html
将阻止对指定文件的访问

因此,
star
表示所有爬虫程序,如果您想将指令应用于您需要执行的指定爬虫程序:

User-agent: Googlebot
如果您对googlebot特别感兴趣,并且希望查看robot.txt是否正在阻止站点上的文件或文件夹,请访问,以便查看是否正在阻止页面资源

还有必要指出的是,虽然robot.txt可以成为搜索引擎优化的有用工具,但所有常规爬虫程序都会遵守应用的指令


恶意爬虫不关心这些指令

此robots.txt无效(根据),因为每个记录至少需要一个
用户代理
和至少一个
禁止

规范并没有说消费者应该(尝试)解释无效记录

因此,投机:

  • 严格的使用者将忽略此无效记录。对于这些消费者,您的robots.txt将相当于一个不存在的robots.txt,它相当于这个:

    User-agent: *
    Disallow: 
    
    User-agent: *
    Disallow: /*_escaped_fragment_
    
    (即,一切都是允许的)

  • 礼貌的消费者可能会认为作者打算为此记录设置一个
    用户代理:
    。对于这些消费者,您的robots.txt将等同于以下内容:

    User-agent: *
    Disallow: 
    
    User-agent: *
    Disallow: /*_escaped_fragment_
    

在任何情况下,您的robots.txt(最有可能)都不会阻止消费者对路径以
/myshopname/
(除非URL包含
\u转义\u片段
,在这种情况下,一些消费者可能会停止对其进行爬网,即那些将interpet
*
作为通配符的用户;顺便说一句,这不是原始规范的一部分)。

此robots.txt无效(根据),因为每个记录需要至少一个
用户代理
和至少一个
不允许

规范并没有说消费者应该(尝试)解释无效记录

因此,投机:

  • 严格的使用者将忽略此无效记录。对于这些使用者,您的robots.txt将相当于不存在的robots.txt,相当于此记录:

    User-agent: *
    Disallow: 
    
    User-agent: *
    Disallow: /*_escaped_fragment_
    
    (即,一切都是允许的)

  • 礼貌的消费者可能会认为作者打算为此记录设置一个
    用户代理:
    。对于这些消费者,您的robots.txt将与此记录等效:

    User-agent: *
    Disallow: 
    
    User-agent: *
    Disallow: /*_escaped_fragment_
    

在任何情况下,您的robots.txt(最有可能)都不会阻止消费者对路径以
/myshopname/
(除非URL包含
\u转义\u片段
,在这种情况下,一些使用者可能会停止对其进行爬网,即那些将interpet
*
作为通配符的使用者;顺便说一句,这不是原始规范的一部分).

在这里获取更多详细信息:@Franco我阅读了关于机器人的文档,没有关于不完整的robot.txt文件的内容。据我所知,你必须先输入一个用户代理,然后输入不允许规则。我不确定如果没有用户代理,会发生什么……机器人会像用户代理一样工作*,还是干脆忽略不允许规则,因为没有给出用户代理。如果它充当被*的用户代理,那么该规则将如何应用?由于AJAX爬网现在已不推荐使用,它会忽略该规则吗?获取更多详细信息