Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
我们如何使用SOLR过滤属于某一语言的所有标记?_Solr_Information Retrieval - Fatal编程技术网

我们如何使用SOLR过滤属于某一语言的所有标记?

我们如何使用SOLR过滤属于某一语言的所有标记?,solr,information-retrieval,Solr,Information Retrieval,在我的例子中,我想从主要包含阿拉伯语单词的文档中过滤掉所有英语单词。假设文本是Unicode,英语和阿拉伯语字母使用不同的字符,您可以使用正则表达式过滤掉它们 因此,在Solr中,您将使用类似Java和标准Java正则表达式的东西。请注意,它实际上非常深入,支持脚本、块和其他使用Unicode标准范围的快捷方式 Solr也有一些ICU过滤器和标记器,但它们更适合于复杂字符的音译、转换和规范化。您有什么尝试吗?你能分享一下吗?由于您是新手,我强烈建议您阅读我们的,尤其是。我只想知道是否存在这样的过

在我的例子中,我想从主要包含阿拉伯语单词的文档中过滤掉所有英语单词。

假设文本是Unicode,英语和阿拉伯语字母使用不同的字符,您可以使用正则表达式过滤掉它们

因此,在Solr中,您将使用类似Java和标准Java正则表达式的东西。请注意,它实际上非常深入,支持脚本、块和其他使用Unicode标准范围的快捷方式


Solr也有一些ICU过滤器和标记器,但它们更适合于复杂字符的音译、转换和规范化。

您有什么尝试吗?你能分享一下吗?由于您是新手,我强烈建议您阅读我们的,尤其是。我只想知道是否存在这样的过滤器。我能想到的替代方法是不断用返回的英语单词更新停止词列表,或者使用翻译API检测英语单词并将其从文档中删除。这两种方法都很耗时。我看不出在这种情况下包含任何代码会有多大用处