Web crawler 在robots.txt中加号是什么意思?
对于一个站点,我想在Web crawler 在robots.txt中加号是什么意思?,web-crawler,robots.txt,Web Crawler,Robots.txt,对于一个站点,我想在/telecomandes路径上进行web爬网。它是robots.txt: User-agent: * Disallow: *telecommande++* 我的问题是: 在这种情况下,加号是什么意思 对URL/telecomandes box decodeur.html进行爬网是否合适?关于robots.txt文件 根据,+在禁止值中没有特殊意义,也没有* 因此可以爬行/telecomandes box decodeur.html 例如,不允许爬行/*telecoma
/telecomandes
路径上进行web爬网。它是robots.txt:
User-agent: *
Disallow: *telecommande++*
我的问题是:
- 在这种情况下,加号是什么意思
- 对URL
进行爬网是否合适?关于robots.txt文件/telecomandes box decodeur.html
+
在禁止
值中没有特殊意义,也没有*
因此可以爬行/telecomandes box decodeur.html
例如,不允许爬行/*telecomande++*.html
(字面意思)
如果你想礼貌一点,你可以考虑使用“专有”robots.txt扩展名,例如来自谷歌和其他搜索引擎的扩展名。许多作者可能没有意识到这些并不是官方规范的一部分,并且期望它们甚至可以用于其他爬虫程序 根据,
+
没有特殊含义,但是*
有一个特殊含义(它意味着:任何字符序列)
因此,仍然允许爬行/telecomandesbox decodeur.html
例如,不允许爬行/foo/telecomand++bar.html
(仍然/*telecomand++*.html
)