Seo 为什么我的robots.txt会阻止谷歌抓取页面?

Seo 为什么我的robots.txt会阻止谷歌抓取页面?,seo,search-engine,google-crawlers,duplicate-content,Seo,Search Engine,Google Crawlers,Duplicate Content,我有一个关于谷歌抓取的网页数量的“双重”问题,它可能与可能的重复内容(或不重复)以及对搜索引擎优化的影响有关 关于我的页面数和谷歌抓取的页面数的事实 两个月前我开通了一个新网站。今天,它有将近150页(每天都在增加)。这是我的网站地图中的页面数 如果我在谷歌网站管理员中查看“爬行统计”,我可以看到谷歌每天爬行的页面数量要大得多(见下图) 我不确定它是否好,因为它不仅让我的服务器更忙(每天903页的下载量为5,6MB),而且我还担心它会产生一些重复的内容 我在Google(网站:mysite.co

我有一个关于谷歌抓取的网页数量的“双重”问题,它可能与可能的重复内容(或不重复)以及对搜索引擎优化的影响有关

关于我的页面数和谷歌抓取的页面数的事实

两个月前我开通了一个新网站。今天,它有将近150页(每天都在增加)。这是我的网站地图中的页面数

如果我在谷歌网站管理员中查看“爬行统计”,我可以看到谷歌每天爬行的页面数量要大得多(见下图)

我不确定它是否好,因为它不仅让我的服务器更忙(每天903页的下载量为5,6MB),而且我还担心它会产生一些重复的内容

我在Google(网站:mysite.com)上查过,它给了我1290个页面(但只有191个页面显示出来,除非我点击“重复搜索并包含省略的结果”。让我们假设191个页面就是我的网站地图中的页面(我想我有一个大约40个页面的重复内容的问题,但我只是为此更新了网站)

关于我的机器人的事实.txt

我使用robots.txt文件来禁止所有爬行引擎进入带有参数(参见下面的robots)和“标签”的页面

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*
最重要的是标签。它们位于我的url中,如下所示:

www.mysite.com/tags/Advertising/writing
它被robots.txt阻止(我已经向谷歌网站管理员查询过了),但是它仍然存在于谷歌搜索中(但是你需要点击“重复搜索并包含省略的结果”)

我不希望这些页面被抓取,因为它是重复的内容(这是一种对关键字的搜索),这就是为什么我把它们放在robots.txt中

最后,我的问题是:

为什么谷歌会抓取我在robots.txt中屏蔽的页面

为什么我阻止了谷歌索引页面?这些页面被谷歌视为重复内容吗?如果是的话,我想这对搜索引擎优化不利

编辑:我不是问如何删除谷歌索引的页面(我已经知道答案)

为什么谷歌会抓取我在robots.txt中屏蔽的页面?为什么谷歌会索引我屏蔽的页面

他们可能在你阻止它之前已经对它进行了爬网。你必须等到他们读取了你更新的robots.txt文件,然后相应地更新他们的索引。这方面没有设定时间表,但对于较新的网站,通常会更长

这些页面是否被视为重复内容

你告诉我们。重复内容是指两个页面在两个或多个页面上有相同或几乎相同的内容。这是在你的网站上发生的吗

阻止重复内容不是解决该问题的方法。你应该使用。阻止页面意味着你链接到网站中的“黑洞”,这会损害你的搜索引擎优化工作。规范化URL可以防止这种情况,并为规范化URL的相关术语和所有重复页面的链接提供充分的信任

为什么谷歌会抓取我在robots.txt中屏蔽的页面?为什么谷歌会索引我屏蔽的页面

他们可能在你阻止它之前已经对它进行了爬网。你必须等到他们读取了你更新的robots.txt文件,然后相应地更新他们的索引。这方面没有设定时间表,但对于较新的网站,通常会更长

这些页面是否被视为重复内容

你告诉我们。重复内容是指两个页面在两个或多个页面上有相同或几乎相同的内容。这是在你的网站上发生的吗


阻止重复内容不是解决该问题的方法。你应该使用。阻止页面意味着你链接到“黑洞”在您的网站中,这会损害您的SEO努力。规范URL阻止了这一点,并为规范URL的相关条款和所有重复页面的链接提供了充分的信任。

我的网站已经60天了,而我的robots.txt至少已经45天了……我确信这不是时间问题。我的问题写得不好:我知道它是重复的内容复杂,但我的问题实际上是“谷歌认为是重复内容吗?”我的网站已经60天了,我的robots.txt至少有45天了……我确信这不是时间问题。我的问题写得不好:我知道这是重复内容,但我的问题实际上是“谷歌认为是重复内容吗?”