Web crawler 如何允许爬虫访问关闭的(私有)wiki?

Web crawler 如何允许爬虫访问关闭的(私有)wiki?,web-crawler,mediawiki,user-permissions,Web Crawler,Mediawiki,User Permissions,我需要向爬虫提供对私有wiki的访问 wiki对所有匿名用户关闭-您必须登录才能查看内容,但我需要提供单个爬虫(由用户代理字符串和单个IP标识)完全访问权限,以便对内容进行索引。它是一个内部爬虫程序,因此只有在成功登录后才能访问其资源 关于如何启用对单个客户端(而不是用户,因为爬虫程序无法登录到wiki)的访问的任何建议?如果您可以访问数据库,您可以在solar这样的系统中使用数据库爬虫为您执行此操作 如果您有权访问数据库,您可以使用solar等系统中的数据库爬虫为您执行此操作 您可以为您的爬虫

我需要向爬虫提供对私有wiki的访问

wiki对所有匿名用户关闭-您必须登录才能查看内容,但我需要提供单个爬虫(由用户代理字符串和单个IP标识)完全访问权限,以便对内容进行索引。它是一个内部爬虫程序,因此只有在成功登录后才能访问其资源


关于如何启用对单个客户端(而不是用户,因为爬虫程序无法登录到wiki)的访问的任何建议?

如果您可以访问数据库,您可以在solar这样的系统中使用数据库爬虫为您执行此操作

如果您有权访问数据库,您可以使用solar等系统中的数据库爬虫为您执行此操作

您可以为您的爬虫程序创建一个自定义用户组,我们称之为“爬虫程序”。因为它必须登录,所以这是最简单的解决方案

只需按如下方式授予它读取权限:

$wgGroupPermissions['*']['read']    = false;
$wgGroupPermissions['crawler']['read']    = true;
参考:


等等,我看错了。爬虫程序可能不是登录帐户,对吗?请稍候,检查您是否可以为IP设置权限。

您可以为爬虫程序创建自定义用户组,我们称之为“爬虫程序”。因为它必须登录,所以这是最简单的解决方案

只需按如下方式授予它读取权限:

$wgGroupPermissions['*']['read']    = false;
$wgGroupPermissions['crawler']['read']    = true;
参考:


等等,我看错了。爬虫程序可能不是登录帐户,对吗?请稍候,检查您是否可以为IP设置权限。

这个问题实际上有一个解决方案。 正如我提到的,一个爬虫程序将使用一个特定的IP,并且它将只是使用它的爬虫程序。这么快又脏,但仍然是一种文明的方式:

$crawler_ip = '1.2.3.4';
if ( $_SERVER['REMOTE_ADDR'] == $crawler_ip ) {
    $wgGroupPermissions['*']['read'] = true;
}

很简单,是吗?:)

这个问题实际上有一个解决方案。 正如我提到的,一个爬虫程序将使用一个特定的IP,并且它将只是使用它的爬虫程序。这么快又脏,但仍然是一种文明的方式:

$crawler_ip = '1.2.3.4';
if ( $_SERVER['REMOTE_ADDR'] == $crawler_ip ) {
    $wgGroupPermissions['*']['read'] = true;
}

很简单,是吗?:)

我确实在使用Solr,但我只关注web上的教程,所以需要了解更多关于如何使用它进行数据库爬网的信息。我用Nutch抓取网页。我还没有完全理解它的全部原理,因为我只是开始玩它,所以我需要阅读更多关于它的内容。这听起来真的很像你想要使用的方法,因为你已经决定不能以你想要的方式登录。我确实在使用Solr,但我只关注web上的教程,所以需要找到更多关于如何使用它进行数据库爬网。我用Nutch抓取网页。还没有完全理解它的全部原理,因为我只是开始玩它,所以我需要阅读更多关于它的内容。这听起来确实像是你想要使用的方法,因为你已经决定不能以你想要的方式记录它。这会有帮助吗?爬虫程序无法登录。MediaWiki将如何识别爬虫并将其分配给“爬虫”组?不,对不起,我想不出一种不登录的方法来完成此操作….,除了实际爬虫数据库而不是页面调用此帮助?爬虫程序无法登录。MediaWiki将如何识别爬虫并将其分配给“爬虫”组?不,对不起,我想不出一种不登录的方法,除了实际爬虫数据库而不是页面你为什么使用爬虫?为什么不使用默认搜索或Lucene?因为Wiki只是Intranet的一部分。我想实现的是全面搜索。我们目前正在使用Lucene搜索插件进行Wiki搜索,但内部网上有几个区域需要搜索。为什么要使用爬虫?为什么不使用默认搜索或Lucene?因为Wiki只是Intranet的一部分。我想实现的是全面搜索。我们目前正在使用Lucene搜索Wiki插件,但内部网上有几个区域需要搜索。