Solr索引方法

Solr索引方法,solr,lucene,search-engine,Solr,Lucene,Search Engine,我有一个场景,我必须建立多语言索引。特别是对于两个脚本,这两个脚本是完全不同的(印地语和英语)。所以它们的茎干细胞和柠檬虫不会相互影响。我的索引将是巨大的,包含数百万个文档。 从以下3中,我使用哪种方法编制索引??: 两种语言的单个字段。 优点-a)由于脚本不同,我可以在其上使用两种分析仪。b) 搜索速度更快,因为字段将受到限制。c) 将需要注意相关性问题 特定于语言的字段:a)由于字段较多,搜索速度可能较慢 多核方法:a)处理多语言文档的问题。b) 管理将是艰难的。c) 特定语言的搜索将很容易

我有一个场景,我必须建立多语言索引。特别是对于两个脚本,这两个脚本是完全不同的(印地语和英语)。所以它们的茎干细胞和柠檬虫不会相互影响。我的索引将是巨大的,包含数百万个文档。 从以下3中,我使用哪种方法编制索引??:

  • 两种语言的单个字段。 优点-a)由于脚本不同,我可以在其上使用两种分析仪。b) 搜索速度更快,因为字段将受到限制。c) 将需要注意相关性问题

  • 特定于语言的字段:a)由于字段较多,搜索速度可能较慢

  • 多核方法:a)处理多语言文档的问题。b) 管理将是艰难的。c) 特定语言的搜索将很容易

  • 请阅读:,这应该会有帮助。
    如果您需要一个软件,我会选择选项2(我正在使用该选项)。

    我建议使用单独的内核。嗯,这是正确的选择

    您不必使用Solr的自动语言识别,因为您可以分别为每个核心/语言定义分析器(lemmatizers/stemmers)。 唯一的缺点是样板配置元素(大多数设置对于两个核心都是相同的)

    请参阅最近类似的帖子:


    谢谢福喜。我认为使用u建议的方法,会不会因为在许多字段中搜索所有查询而导致搜索速度变慢?查询是使用language1还是使用language2???这是可能的,但我没有感觉到。与Solr解析结果并在页面上显示结果所花费的时间相比。你总是可以先查询默认语言,如果你没有得到任何点击,试试替代语言,但这将花费更多的时间:)谢谢mbonaci,我不知道我要索引的数据语言。有没有办法动态检测语言并选择正确的核心???语言检测:谢谢mbonaci。我检查了这个语言检测。但它不能正确地检测语言。在我的例子中,准确率不到10%。甚至它似乎没有使用回退字段。对于所有的英语内容,它都是检测未列入白名单的语言。它应该只检测白名单语言,如果白名单语言不匹配,它应该回退到回退语言。除了wiki之外,任何其他使用langdetect的指针。请建议?????对不起,我本人从未在Solr中使用过语言检测。当我索引时,我总是知道哪种语言向我走来,所以我知道使用哪种核心。我决定使用第一种方法,只是我必须注意相关性。现在用户可以用任何语言(两种语言)查询数据。但这里的问题是,A语言数据不必要地从B语言数据分析器链中流出,反之亦然。这将增加索引时间。