Seo 动态机器人.txt

Seo 动态机器人.txt,seo,Seo,比如说,我有一个网站,用于托管社区生成的内容,这些内容针对一组非常特定的用户。现在,让我们说,为了培养一个更好的社区,我有一个非主题区域,社区成员可以发布或谈论他们想要的任何东西,而不管网站的主题是什么 现在,我想让谷歌为大部分内容编制索引。值得注意的例外是离题内容。每个线程都有自己的页面,但所有线程都列在同一个文件夹中,因此我不能将搜索引擎从某个文件夹中排除。它必须是每页。一个传统的robots.txt文件会变得很大,那么我怎么才能做到这一点呢?如果使用Apache,我会使用mod rewri

比如说,我有一个网站,用于托管社区生成的内容,这些内容针对一组非常特定的用户。现在,让我们说,为了培养一个更好的社区,我有一个非主题区域,社区成员可以发布或谈论他们想要的任何东西,而不管网站的主题是什么


现在,我想让谷歌为大部分内容编制索引。值得注意的例外是离题内容。每个线程都有自己的页面,但所有线程都列在同一个文件夹中,因此我不能将搜索引擎从某个文件夹中排除。它必须是每页。一个传统的robots.txt文件会变得很大,那么我怎么才能做到这一点呢?

如果使用Apache,我会使用mod rewrite将robots.txt别名为一个可以动态生成必要内容的脚本


编辑:如果使用IIS,您也可以使用它进行编辑。

这将适用于所有性能良好的搜索引擎,只需将其添加到



类似于@James Marshall的建议-在ASP.NET中,您可以使用HttpHandler将对robots.txt的调用重定向到生成内容的脚本。

您可以通过限制robot元标记来禁止搜索引擎读取或索引您的内容。这样,蜘蛛会考虑你的指令,只索引你想要的页面。

你可以用Roopts.txt代替动态脚本生成输出。 使用Apache,您可以使用简单的.htaccess规则来实现这一点

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

通过robots.txt阻止动态网页使用此代码


用户代理:*

不允许:/setnewsprfs

不允许:/index.html

不允许:/

允许:/?hl=


不允许:/?hl=*&

仅针对该线程,确保您的头部包含一个noindex元标记。这是告诉搜索引擎不要抓取你的页面的另一种方法,除了在robots.txt中阻止之外。请记住,robots.txt被禁止不会阻止谷歌索引来自外部站点的链接页面,它所做的只是阻止内部抓取。看到或看到

@ZhihuaLai除了“机器人”,你不需要其他的机器人,因为这会阻碍一切
RewriteRule  ^robots\.txt$ /robots.php [NC,L]