不同语言的Lucene配置_Lucene - Fatal编程技术网

不同语言的Lucene配置

lucene

不同语言的Lucene配置,lucene,Lucene,我很想学习lucene如何配置不同的语言。有没有办法知道标记器是如何配置的，哪些字符被认为是单词的一部分，哪些不属于单词？默认情况下，Lucene没有配置为处理语言。这完全取决于您，我的建议是在不同的文档字段中索引几种语言，每种语言对应一种语言，并每次使用适当的分析器所以Lucene对此没有默认配置，但如果您使用的是Elasticsearch或Solr，可能会有。你是在用Lucene吗关于，我正在使用lucene，但手头的工作是压缩字符串。由于每秒可以处理大约1亿个字符，而core和Java

我很想学习lucene如何配置不同的语言。有没有办法知道标记器是如何配置的，哪些字符被认为是单词的一部分，哪些不属于单词？

默认情况下，Lucene没有配置为处理语言。这完全取决于您，我的建议是在不同的文档字段中索引几种语言，每种语言对应一种语言，并每次使用适当的分析器

所以Lucene对此没有默认配置，但如果您使用的是Elasticsearch或Solr，可能会有。你是在用Lucene吗

关于，

我正在使用lucene，但手头的工作是压缩字符串。由于每秒可以处理大约1亿个字符，而core和Java需要每个字符2个字节，或者使用UTF-8也在这个范围内，因此在内存中压缩这些字符串非常合适。从中可以得到1:3到1:4，这两个字节在内存中是1:6到1:8，这也完全避免了Java的字符串处理（比如，字符串实际上只需要它们的一部分）。此外，这些字符串必须很少解压缩，因为解压缩在客户端是可用的。我不确定我是否理解，您将这个问题标记为Lucene。你的目标是什么？Lucene至少Solr为不同的语言提供了默认标记器。我还需要为不同的语言编写标记器，以便了解它们的配置方式、值等。这是关于他们使用的配置和算法。