Apache Nutch文档Solr中的语言检测
如何使用Solr对通过nutch爬行获得的文档进行语言标识 我安装了Nutch 1.9和Solr 4.8.1。 我添加了一个新的核心,名为Apache Nutch文档Solr中的语言检测,apache,solr,nutch,language-detection,Apache,Solr,Nutch,Language Detection,如何使用Solr对通过nutch爬行获得的文档进行语言标识 我安装了Nutch 1.9和Solr 4.8.1。 我添加了一个新的核心,名为“核心测试” 通过solr Admin页面中的Core Admin访问solr,我按照中的步骤在文档索引期间进行语言检测 我通过添加字段修改了coretest/conf中的schema.xml 然后,我使用Nutch通过 crawl seed.txt Test http://localhost:8983/solr/core-test 2 Nutch工作正
“核心测试”
通过solr Admin页面中的Core Admin访问solr,我按照中的步骤在文档索引期间进行语言检测
我通过添加字段修改了coretest/conf中的schema.xml
然后,我使用Nutch通过
crawl seed.txt Test http://localhost:8983/solr/core-test 2
Nutch工作正常,但文档的语言未被识别,即当我在中进行查询时,
q
设置为”:“
您需要启用Nutch的语言检测。将下面的xml标记复制到Nutch_HOME/conf/Nutch site.xml
:
plugin.includes
协议http | urlfilter regex | parse-(html | tika)| index-(basic | anchor)| indexer solr | scoring opic | urlnormalizer-(pass | regex | basic)|语言标识符
上面的标签启用了与Nutch捆绑的语言检测插件。如中所述,插件将添加一个名为“lang”的字段,其中包含文档的语言代码