不同语言的Lucene配置

不同语言的Lucene配置,lucene,Lucene,我很想学习lucene如何配置不同的语言。有没有办法知道标记器是如何配置的,哪些字符被认为是单词的一部分,哪些不属于单词?默认情况下,Lucene没有配置为处理语言。这完全取决于您,我的建议是在不同的文档字段中索引几种语言,每种语言对应一种语言,并每次使用适当的分析器 所以Lucene对此没有默认配置,但如果您使用的是Elasticsearch或Solr,可能会有。你是在用Lucene吗 关于,我正在使用lucene,但手头的工作是压缩字符串。由于每秒可以处理大约1亿个字符,而core和Java

我很想学习lucene如何配置不同的语言。有没有办法知道标记器是如何配置的,哪些字符被认为是单词的一部分,哪些不属于单词?

默认情况下,Lucene没有配置为处理语言。这完全取决于您,我的建议是在不同的文档字段中索引几种语言,每种语言对应一种语言,并每次使用适当的分析器

所以Lucene对此没有默认配置,但如果您使用的是Elasticsearch或Solr,可能会有。你是在用Lucene吗


关于,

我正在使用lucene,但手头的工作是压缩字符串。由于每秒可以处理大约1亿个字符,而core和Java需要每个字符2个字节,或者使用UTF-8也在这个范围内,因此在内存中压缩这些字符串非常合适。从中可以得到1:3到1:4,这两个字节在内存中是1:6到1:8,这也完全避免了Java的字符串处理(比如,字符串实际上只需要它们的一部分)。此外,这些字符串必须很少解压缩,因为解压缩在客户端是可用的。我不确定我是否理解,您将这个问题标记为Lucene。你的目标是什么?Lucene至少Solr为不同的语言提供了默认标记器。我还需要为不同的语言编写标记器,以便了解它们的配置方式、值等。这是关于他们使用的配置和算法。