Wicket状态页面导致googlebot爬行过载

Wicket状态页面导致googlebot爬行过载,wicket,wicket-6,Wicket,Wicket 6,从版本1.5开始,我们已经在几个不同的项目中使用Wicket。我们最近升级到Wicket 8(从6和7),我们遇到了谷歌爬虫的问题。它可能是从我们在边门6号开始的,我不确定,因为它有点爬到我们身上 问题与Wicket在有状态页面的url中添加pageId(版本)有关,该页面上的所有链接都使用相同的id(ajax链接) 我们有一个带有大量ajax链接的单页应用程序,我们看到googlebot的流量每天都在增加。查看访问日志,我发现google尝试使用pageid超过450000的URL(至少,这只

从版本1.5开始,我们已经在几个不同的项目中使用Wicket。我们最近升级到Wicket 8(从6和7),我们遇到了谷歌爬虫的问题。它可能是从我们在边门6号开始的,我不确定,因为它有点爬到我们身上

问题与Wicket在有状态页面的url中添加pageId(版本)有关,该页面上的所有链接都使用相同的id(ajax链接)

我们有一个带有大量ajax链接的单页应用程序,我们看到googlebot的流量每天都在增加。查看访问日志,我发现google尝试使用pageid超过450000的URL(至少,这只是一个随机样本)(?4529280-1.0-xxxx)。乘以每页大约100个链接(如果不是更多的话),你就会发现问题所在。 我们还看到谷歌在尝试页面ID仍然为0的链接,但rendercount非常庞大(0-4534543.0-xxxx)

为什么会这样?我不认为这曾经发生过,但在这种情况下,我不知道Wicket是否改变了什么,或者谷歌是否改变了什么

(在我看来,使用setVersioned(false)没有帮助,因为Wicket仍然会添加和增加pageId)


我们很幸运地将另一个应用程序更改为使用无状态页面,但我不确定我们是否可以使用此应用程序,而且这是一项相当大的工作……

自1.5.0以来,Wicket在url中编码页面id的方式没有任何变化,因此对于您的所有应用程序来说都必须是相同的

您可以告诉机器人程序不要索引或跟随包含以下元元素的页面中的链接:

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">
是的,一般建议对公共页面使用无状态页面。有状态的应该用于在某种身份验证/授权之后的页面

<a href="https://www.example.com" rel="nofollow">example</a>