如何让MediaWiki忽略来自Google搜索设备的页面视图？_Mediawiki_Web Crawler_Google Search Appliance

如何让MediaWiki忽略来自Google搜索设备的页面视图？

mediawiki web-crawler

如何让MediaWiki忽略来自Google搜索设备的页面视图？,mediawiki,web-crawler,google-search-appliance,Mediawiki,Web Crawler,Google Search Appliance,每个页面上的页面浏览计数器似乎是识别流行页面的一个很好的方法，这些页面值得花更多的精力来保持最新和有用，但我遇到了一个问题我们使用索引来索引MediaWiki安装。我遇到的问题是，GSA每次爬网页面时都会增加页面视图计数器。这完全控制了统计数据，淹没了真实用户的视图我知道如何重新开始。但是有没有一种方法可以配置MediaWiki来忽略GSA的页面请求以计算页面浏览量？这可以通过在Article.php中添加一个条件来实现： includes/Article.php:2861:函数viewUp

每个页面上的页面浏览计数器似乎是识别流行页面的一个很好的方法，这些页面值得花更多的精力来保持最新和有用，但我遇到了一个问题

我们使用索引来索引MediaWiki安装。我遇到的问题是，GSA每次爬网页面时都会增加页面视图计数器。这完全控制了统计数据，淹没了真实用户的视图

我知道如何重新开始。但是有没有一种方法可以配置MediaWiki来忽略GSA的页面请求以计算页面浏览量？

这可以通过在Article.php中添加一个条件来实现：

includes/Article.php:2861:函数viewUpdates（）：

加：

其中gsa爬虫是默认gsa UA的一部分

另一种方法是在GSA中设置表单身份验证，并让它作为bot组中的用户登录到wikimedia。

我们将此代码段添加到LocalSettings.php中，取得了巨大成功：

if (strpos($_SERVER['HTTP_USER_AGENT'], 'gsa-crawler') !== FALSE) {
  $wgDisableCounters = TRUE;
}

谢谢

很好用！请注意，您不必直接破解代码——我在LocalSettings.php中添加了这个额外条件，因此它可以跨版本升级进行维护。

&& strpos($_SERVER['HTTP_USER_AGENT'], 'gsa-crawler') === false

if (strpos($_SERVER['HTTP_USER_AGENT'], 'gsa-crawler') !== FALSE) {
  $wgDisableCounters = TRUE;
}