Seo Meta标签vs.txt
使用meta tags*或robots.txt文件通知爬行器/爬虫包含或排除页面是否更好Seo Meta标签vs.txt,seo,robots.txt,meta-tags,Seo,Robots.txt,Meta Tags,使用meta tags*或robots.txt文件通知爬行器/爬虫包含或排除页面是否更好 在使用meta标签和robots.txt时是否存在任何问题 *例如:我可能会在meta标记上使用robots.txt。Robots.txt存在的时间更长,可能会得到更广泛的支持(但我不是100%确定) 至于第二部分,我认为大多数爬行器都会采用页面最严格的设置——如果robots.txt和meta标记之间存在差异。robots.txt IMHO Meta标记选项告诉机器人程序不要索引单个文件,而Robots.
*例如:
我可能会在meta
标记上使用robots.txt
。Robots.txt存在的时间更长,可能会得到更广泛的支持(但我不是100%确定)
至于第二部分,我认为大多数爬行器都会采用页面最严格的设置——如果robots.txt和meta标记之间存在差异。robots.txt IMHO
Meta标记选项告诉机器人程序不要索引单个文件,而Robots.txt可用于限制对整个目录的访问
当然,如果你想跳过索引文件夹中的奇数页,请使用Meta标记,但一般来说,我建议你在一个或多个文件夹中保存大部分未索引的内容,并使用robots.txt跳过该部分
不,使用两者都没有问题-如果发生冲突,一般来说,拒绝将推翻允许。所有尊重站长意愿的爬虫程序都支持这两种方法。并非所有人都这样做,但与他们相比,任何一种技术都是不够的 您可以使用robots.txt规则处理一般事务,例如禁止站点的整个部分。如果您说
Disallow:/family
,则爬虫程序不会为以/family
开头的所有链接编制索引
Meta标记可用于禁止单个页面。元标记不允许的页面不会影响页面层次结构中的子页面。如果您在
/work
上有meta-disallow标记,那么如果允许的页面上有指向它的链接,它不会阻止爬虫访问/work/my publications
。有一个显著的区别。如果页面通过另一个站点链接,他们仍然会在robots.txt拒绝后索引该页面
但是,如果他们看到元标记,则不会:
虽然谷歌不会对robots.txt阻止的内容进行爬网或索引,但我们可能仍然会从网络上的其他地方找到并索引不允许的URL。因此,URL地址以及其他可能公开的信息(如网站链接中的锚文本)仍然可以出现在谷歌搜索结果中。您可以使用其他URL阻止方法完全阻止URL出现在Google搜索结果中,例如使用密码保护服务器上的文件,或使用noindex meta标记或响应头
你可以有任何一个,但是如果你的网站有很多网页,那么robots.txt很简单,可以减少时间复杂度robots.txt适用于消耗大量爬行预算的网页,如内部搜索或具有无限组合的过滤器。如果你允许谷歌为你的网站建立索引,那将浪费你的预算
为了从搜索引擎索引中排除单个页面,noindex meta标记实际上优于robots.txt。meta robot和robots.txt之间存在巨大差异 在robots.txt中,我们询问爬虫程序哪些页面需要爬网,哪些页面需要排除,但我们不要求爬虫程序不索引那些被排除的页面 但是,如果我们使用meta robots标记,我们可以要求搜索引擎爬虫不要为此页面编制索引。用于此操作的标记是: (删除#) 或 (删除#)
在第二个meta标记中,我要求robot跟随该URL,但不要在搜索引擎中建立索引。您希望在a中使用'noindex,follow',而不是
robots.txt
,因为它将允许链接流通过。从SEO的角度来看,这是更好的 以下是我对它们的了解。我说的是他们的工作区域。这两种方法都可以用于阻止内容
两者的区别在于:
- Meta Robot可以通过在网站标题中粘贴一些代码来阻止单个页面。通过使用meta robot标签,我们告诉搜索引擎我们使用meta标签的功能
- 在Robots.txt文件中,您可以阻止整个网站
使用meta tags*或robots.txt文件通知爬行器/爬虫包含或排除页面是否更好? 回答:两者都很重要,它们用于不同的目的。Robots文件用于从spider索引中包括或排除页面或根文件。而Meta标签用于分析网站页面,定义页面中的利基和内容 同时使用meta标签和robots.txt是否有任何问题? 答案:这两种方法都应该应用于站点,以便搜索引擎爬行器/爬虫可以索引或取消索引站点URL
阅读更多关于搜索引擎蜘蛛工作的信息>>这是一个与网络开发相关的编程问题。如果您可以发布单独的问题,而不是将您的问题合并为一个问题,这是首选。这样,它可以帮助人们回答你的问题,也可以帮助其他人寻找至少一个你的问题。谢谢虽然我自己也倾向于选择Robots.txt,但狡猾的Robots不可能仅仅使用该文件来获得一个方便的新目录列表吗?然而有了META标签,他们就没有办法找到一个没有链接的页面了。。。只是一个想法@Codecraft可能是正确的,但这是您不应该向未经授权的用户显示敏感信息的方式
robots.txt
用于指示爬虫哪些信息不值得,而不是哪些信息是私有的,不能访问。我建议所有访问此页面的访问者向下滚动,并通过@Benjamin查看下一个答案,因为它链接到谷歌的文档!你仍然可以不允许
<meta name="robots" content="index, follow">
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />
user-agent: *
Allow:
Disallow:
user-agent: *
Allow:
Disallow:/