Seo robots.txt阻止爬虫进入访问页面
我试图找到如何阻止爬虫访问我的链接,如下所示: site.com/something-search.html 我想阻止所有/某些东西-* 有人能帮我吗?在你的robots.txt中Seo robots.txt阻止爬虫进入访问页面,seo,web-crawler,robots.txt,Seo,Web Crawler,Robots.txt,我试图找到如何阻止爬虫访问我的链接,如下所示: site.com/something-search.html 我想阻止所有/某些东西-* 有人能帮我吗?在你的robots.txt中 User-agent: * Disallow: site.com/something-(1st link) . . . Disallow: site.com/somedthing-(last link) 为您不想看到的每个页面添加条目 虽然robots.txt中不允许使用正则表达式,但一些智能爬虫可以理解它 看一看
User-agent: *
Disallow: site.com/something-(1st link)
.
.
.
Disallow: site.com/somedthing-(last link)
为您不想看到的每个页面添加条目
虽然robots.txt中不允许使用正则表达式,但一些智能爬虫可以理解它
看一看
这将阻止路径以/something-
开头的所有URL,例如可从访问的robots.txthttp://example.com/robots.txt
:
http://example.com/something-
http://example.com/something-foo
http://example.com/something-foo.html
http://example.com/something-foo/bar
http://example.com/something
http://example.com/something.html
http://example.com/something/
Disallow
中不能使用*不能包含主机(site.com
)这个问题似乎离题了,因为它是关于搜索引擎优化的
User-agent: *
Disallow: /something-