Web crawler 不完整的robots.txt，会发生什么？_Web Crawler_Robots.txt_Google Crawlers

Web crawler 不完整的robots.txt，会发生什么？

web-crawler

Web crawler 不完整的robots.txt，会发生什么？,web-crawler,robots.txt,google-crawlers,Web Crawler,Robots.txt,Google Crawlers,我在一个网站上有一个页面，除了我的页面之外，我没有其他任何访问权限。该网站用于销售各种小产品。在与他们相处了一年多之后，我使用谷歌广告词来帮助提升自己，我注意到该产品的页面没有一个在谷歌上被索引。当我注意到该站点的robots.txt中没有太多内容时，我想知道这是否与此有关产品URL采用以下格式： www.example.com/myshopname/[product ID]？q=I[product ID] 而robots.txt只是：不允许：/*\u转义\u片段_ 没有用户代理。我想

我在一个网站上有一个页面，除了我的页面之外，我没有其他任何访问权限。该网站用于销售各种小产品。在与他们相处了一年多之后，我使用谷歌广告词来帮助提升自己，我注意到该产品的页面没有一个在谷歌上被索引。当我注意到该站点的robots.txt中没有太多内容时，我想知道这是否与此有关

产品URL采用以下格式：

www.example.com/myshopname/[product ID]？q=I[product ID]

而robots.txt只是：

不允许：/*\u转义\u片段_

没有用户代理。我想知道这是否会对谷歌抓取我的页面有任何影响，或者它会忽略robots.txt，因为没有指定用户代理

我将在这里为您提供更多信息：

robots.txt文件是web服务器上的一个简单文本文件，它告诉webcrawlers是否可以访问文件。您始终可以访问此文件，因为它不是服务器系统文件的一部分，而是站点的一部分

在你的情况下，我不知道这个

/*\u转义\u片段\u

是什么意思，但是：

User-agent: *
Disallow: /

将阻止对所有爬虫的访问

而这:

User-agent: *
Disallow:

允许完全访问您的网站

User-agent: *
Disallow: /images/

将阻止对指定文件夹的访问

User-agent: *
Disallow: /images
Allow: /images/my_photo.jpg

即使您不允许某个文件夹，您也可以始终授予该文件夹中指定文件的访问权限

User-agent: *
Disallow: /assets.html

将阻止对指定文件的访问

因此，

star

表示所有爬虫程序，如果您想将指令应用于您需要执行的指定爬虫程序：

User-agent: Googlebot

如果您对googlebot特别感兴趣，并且希望查看robot.txt是否正在阻止站点上的文件或文件夹，请访问，以便查看是否正在阻止页面资源

还有必要指出的是，虽然robot.txt可以成为搜索引擎优化的有用工具，但所有常规爬虫程序都会遵守应用的指令

恶意爬虫不关心这些指令

我将在这里为您提供更多信息：

在你的情况下，我不知道这个

/*\u转义\u片段\u

是什么意思，但是：

User-agent: *
Disallow: /

将阻止对所有爬虫的访问

而这:

User-agent: *
Disallow:

允许完全访问您的网站

User-agent: *
Disallow: /images/

将阻止对指定文件夹的访问

User-agent: *
Disallow: /images
Allow: /images/my_photo.jpg

即使您不允许某个文件夹，您也可以始终授予该文件夹中指定文件的访问权限

User-agent: *
Disallow: /assets.html

将阻止对指定文件的访问

因此，

star

表示所有爬虫程序，如果您想将指令应用于您需要执行的指定爬虫程序：

User-agent: Googlebot

如果您对googlebot特别感兴趣，并且希望查看robot.txt是否正在阻止站点上的文件或文件夹，请访问，以便查看是否正在阻止页面资源

还有必要指出的是，虽然robot.txt可以成为搜索引擎优化的有用工具，但所有常规爬虫程序都会遵守应用的指令

恶意爬虫不关心这些指令

此robots.txt无效（根据），因为每个记录至少需要一个

用户代理

和至少一个

禁止

行

规范并没有说消费者应该（尝试）解释无效记录

因此，投机：

严格的使用者将忽略此无效记录。对于这些消费者，您的robots.txt将相当于一个不存在的robots.txt，它相当于这个：
```
User-agent: *
Disallow: 
```
```
User-agent: *
Disallow: /*_escaped_fragment_
```
（即，一切都是允许的）
礼貌的消费者可能会认为作者打算为此记录设置一个
```
用户代理：
```
。对于这些消费者，您的robots.txt将等同于以下内容：
```
User-agent: *
Disallow: 
```
```
User-agent: *
Disallow: /*_escaped_fragment_
```

在任何情况下，您的robots.txt（最有可能）都不会阻止消费者对路径以

/myshopname/

（除非URL包含

\u转义\u片段

，在这种情况下，一些消费者可能会停止对其进行爬网，即那些将interpet

作为通配符的用户；顺便说一句，这不是原始规范的一部分）。

此robots.txt无效（根据），因为每个记录需要至少一个

用户代理

和至少一个

不允许

行

规范并没有说消费者应该（尝试）解释无效记录

因此，投机：

严格的使用者将忽略此无效记录。对于这些使用者，您的robots.txt将相当于不存在的robots.txt，相当于此记录：
```
User-agent: *
Disallow: 
```
```
User-agent: *
Disallow: /*_escaped_fragment_
```
（即，一切都是允许的）
礼貌的消费者可能会认为作者打算为此记录设置一个
```
用户代理：
```
。对于这些消费者，您的robots.txt将与此记录等效：
```
User-agent: *
Disallow: 
```
```
User-agent: *
Disallow: /*_escaped_fragment_
```

在任何情况下，您的robots.txt（最有可能）都不会阻止消费者对路径以

/myshopname/

（除非URL包含

\u转义\u片段

，在这种情况下，一些使用者可能会停止对其进行爬网，即那些将interpet

作为通配符的使用者；顺便说一句，这不是原始规范的一部分）.

在这里获取更多详细信息：@Franco我阅读了关于机器人的文档，没有关于不完整的robot.txt文件的内容。据我所知，你必须先输入一个用户代理，然后输入不允许规则。我不确定如果没有用户代理，会发生什么……机器人会像用户代理一样工作*，还是干脆忽略不允许规则，因为没有给出用户代理。如果它充当被*的用户代理，那么该规则将如何应用？由于AJAX爬网现在已不推荐使用，它会忽略该规则吗？获取更多详细信息