单词lucene索引限制?

单词lucene索引限制?,lucene,Lucene,我有一个基于Lucene的应用程序,这显然是一个问题。 当索引文档的数量较低时,不会出现任何问题。当文档数量增加时,似乎没有单个单词在索引。我们得到的结果是,使用单个单词(单个术语)进行搜索是一个空集。 Lucene在64位机器上的版本为3.1,索引为10GB 你知道吗 多亏了根据,Lucene应该能够处理2740亿个不同的条款。我不相信您在10GB索引中达到了该限制 没有更多的信息,很难进一步提供帮助。但是,由于您只看到大量文档的问题,我怀疑您遇到了某种形式的异常情况,导致系统无法正确读取或响

我有一个基于Lucene的应用程序,这显然是一个问题。 当索引文档的数量较低时,不会出现任何问题。当文档数量增加时,似乎没有单个单词在索引。我们得到的结果是,使用单个单词(单个术语)进行搜索是一个空集。 Lucene在64位机器上的版本为3.1,索引为10GB

你知道吗

多亏了

根据,Lucene应该能够处理2740亿个不同的条款。我不相信您在10GB索引中达到了该限制


没有更多的信息,很难进一步提供帮助。但是,由于您只看到大量文档的问题,我怀疑您遇到了某种形式的异常情况,导致系统无法正确读取或响应。文件句柄泄漏或内存溢出可能是暗中冒险

谢谢你的回复。我的假设是,在优化索引的过程中出现了一些错误。我没有报告的一件事是,并不是每个学期都会发生这种情况。只是为了一些条件。如果我们把术语A和另一个术语结合起来,就可以说找到了B文档。此外,如果我们使用相同版本的软件分析文档子集,则问题不会发生。这是一个很奇怪的问题。你的解释我不清楚。我只知道你运行了一个查询,却没有得到你期望的结果。什么证据使您怀疑优化失败?你能更具体地说明你所谈论的问题吗?哪些查询用于生成“术语A”和“将A与B组合时”的文档?代码和示例很有帮助。让我们假设为以下文档编制索引:D1=“我不清楚您的解释。我只知道您运行了一个查询,但没有得到预期的结果。有什么证据使您怀疑优化失败?”D2=“您能更具体地说明您所谈论的问题吗?”使用术语“证据”搜索时,不会检索文件D1。当使用术语“证据原因”进行搜索时,检索文档D1。正如我之前写的,这并不是所有的术语都会发生的。听起来像是分析的问题。Stopword和同义词过滤器似乎很可能是罪魁祸首,但如果没有关于您的实现或示例的任何信息,就很难对其进行任何有用的猜测(因为您说并非所有术语都会发生这种情况,您给出的随机示例可能会发生,也可能不会发生)。解决了……这是一个超时问题。我们在一个单独的线程中执行搜索,显然我们等待响应的特定时间量,否则结果无效。在特定情况下,不是lucene搜索,而是由于某些文档的尺寸,高光的创建速度较慢。谢谢你花时间帮助我。