Ajax生成的内容、爬网和黑名单

Ajax生成的内容、爬网和黑名单,ajax,seo,web-crawler,blacklist,Ajax,Seo,Web Crawler,Blacklist,我的网站使用ajax 我有一个用户列表页面,在ajax表中列出用户(带有分页和更多信息…) 此页面的url为: /用户列表 用户列表是由ajax创建的。当用户单击一个用户时,他将被重定向到url为:/member/memberName的页面 所以我们可以在这里看到,ajax用于生成内容,而不是管理导航(带有#字符) 我想检测bot来索引所有页面 因此,在ajax中,我希望显示一个带有分页和酷炫ajax效果的ajax表(更多信息…),当我检测到一个机器人时,我希望显示所有用户(不带分页),并带有指

我的网站使用ajax

我有一个用户列表页面,在ajax表中列出用户(带有分页和更多信息…)

此页面的url为: /用户列表

用户列表是由ajax创建的。当用户单击一个用户时,他将被重定向到url为:/member/memberName的页面

所以我们可以在这里看到,ajax用于生成内容,而不是管理导航(带有#字符)

我想检测bot来索引所有页面

因此,在ajax中,我希望显示一个带有分页和酷炫ajax效果的ajax表(更多信息…),当我检测到一个机器人时,我希望显示所有用户(不带分页),并带有指向成员页面的链接,如下所示:

<a href="/member/john">John</a><a href="/member/bob">Bob</a>...
。。。
你认为用这种方法我能被列入黑名单吗?如果您这样认为,您是否可以提供一种替代解决方案,即保持这些干净的URL,而不重新开发用户列表(不使用ajax)?

可能使用带有onclick的
URL来触发您的ajax脚本?像

<a href="/some/url" onclick="YourFancyFunction();return false;">Some URL</a>

我不认为谷歌会因此惩罚你,你主要使用JScript,但你确实为他们的机器人提供了一个后援,所以你的网站不会变得更难访问

编辑
好吧,我误解了。那么我猜你基本上有两个选择:
1.在你的站点上写一个不同的部分,机器人会在那里结束,或者, 2.重写您当前的站点,例如,始终提供一个“完整”页面,并提供一个仅获取(比如)content div的选项。然后,您可以使用JavaScript仅获取内容,但机器人程序将始终获得一个漂亮的页面。

可能使用带有onclick的
URL来触发AJAX脚本?像

<a href="/some/url" onclick="YourFancyFunction();return false;">Some URL</a>

我不认为谷歌会因此惩罚你,你主要使用JScript,但你确实为他们的机器人提供了一个后援,所以你的网站不会变得更难访问

编辑
好吧,我误解了。那么我猜你基本上有两个选择:
1.在你的站点上写一个不同的部分,机器人会在那里结束,或者,
2.重写您当前的站点,例如始终提供“完整”页面,并提供仅获取(例如)内容div的选项。然后,您可以使用JavaScript仅获取内容,但机器人程序将始终获得一个漂亮的页面。

谷歌支持一个规范,使AJAX可爬行:

我做了一个实验,效果很好:

因为这是一个谷歌规范,你不会受到惩罚(除非你滥用它)

也就是说,目前只有谷歌支持它(AFAIK)


此外,我认为遵循渐进式增强的概念是一种更好的方法。也就是说,创建一个工作的html网站,然后让JavaScript增强它,使其支持一个规范,使AJAX可爬行:

我做了一个实验,效果很好:

因为这是一个谷歌规范,你不会受到惩罚(除非你滥用它)

也就是说,目前只有谷歌支持它(AFAIK)


此外,我认为遵循渐进式增强的概念是一种更好的方法。也就是说,创建一个工作的html网站,然后使用JavaScript增强它

谢谢你的回答,但我不能这样做,因为正如我在文章中所说,ajax版本生成内容。所以,我必须为机器人生成另一个内容。如果你可以为机器人生成内容,那么你可以为每个人生成,然后逐步增强。建立在有用的东西之上。我知道这当然更好,但我使用GWT,所有内容都是通过javascript生成的。我不能把时间浪费在带有分页和其他东西的html版本上。这里的目标是创建一个没有设计的页面,并使用最少的内容来允许搜索引擎索引。因此,如果我的方法没有被列入黑名单,那就成功了。这就是我问这个问题的真正原因。谢谢你的回答,但我不能这样做,因为正如我在帖子中所说的,ajax版本生成内容。所以,我必须为机器人生成另一个内容。如果你可以为机器人生成内容,那么你可以为每个人生成,然后逐步增强。建立在有用的东西之上。我知道这当然更好,但我使用GWT,所有内容都是通过javascript生成的。我不能把时间浪费在带有分页和其他东西的html版本上。这里的目标是创建一个没有设计的页面,并使用最少的内容来允许搜索引擎索引。因此,如果我的方法没有被列入黑名单,那就成功了。这就是我问这个问题的真正原因。正如我在帖子中所说,我不想使用#字符,因为这是特定于gwt的。我知道使用渐进增强肯定更好,但我使用GWT,所有内容都是通过javascript生成的。我不能把时间浪费在带有分页和其他东西的html版本上。这里的目标是创建一个没有设计的页面,并使用最少的内容来允许搜索引擎索引。正如我在帖子中所说的,我不想使用#字符,因为这是特定于gwt的。我知道使用渐进增强肯定更好,但我使用GWT,所有内容都是通过javascript生成的。我不能把时间浪费在带有分页和其他东西的html版本上。这里的目标是创建一个没有设计的页面,并使用最少的内容来允许搜索引擎索引。