Apache Nutch文档Solr中的语言检测

Apache Nutch文档Solr中的语言检测,apache,solr,nutch,language-detection,Apache,Solr,Nutch,Language Detection,如何使用Solr对通过nutch爬行获得的文档进行语言标识 我安装了Nutch 1.9和Solr 4.8.1。 我添加了一个新的核心,名为“核心测试” 通过solr Admin页面中的Core Admin访问solr,我按照中的步骤在文档索引期间进行语言检测 我通过添加字段修改了coretest/conf中的schema.xml 然后,我使用Nutch通过 crawl seed.txt Test http://localhost:8983/solr/core-test 2 Nutch工作正

如何使用Solr对通过nutch爬行获得的文档进行语言标识

我安装了Nutch 1.9和Solr 4.8.1。 我添加了一个新的核心,名为
“核心测试”
通过solr Admin页面中的Core Admin访问solr,我按照中的步骤在文档索引期间进行语言检测

我通过添加字段修改了coretest/conf中的schema.xml


然后,我使用Nutch通过

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch工作正常,但文档的语言未被识别,即当我在中进行查询时,
q
设置为
”:“

您需要启用Nutch的语言检测。将下面的xml标记复制到
Nutch_HOME/conf/Nutch site.xml


plugin.includes
协议http | urlfilter regex | parse-(html | tika)| index-(basic | anchor)| indexer solr | scoring opic | urlnormalizer-(pass | regex | basic)|语言标识符

上面的标签启用了与Nutch捆绑的语言检测插件。如中所述,插件将添加一个名为“lang”的字段,其中包含文档的语言代码