Lucene.net Lucene索引：按帐户共享还是隔离？_Lucene.net_Lucene

Lucene.net Lucene索引：按帐户共享还是隔离？

lucene

Lucene.net Lucene索引：按帐户共享还是隔离？,lucene.net,lucene,Lucene.net,Lucene,我正在评估Lucene在SaaS应用程序中实现全局搜索功能我们不希望用户看到其他帐户的内容，因此搜索将始终受到帐户的限制使用一个带有帐户id字段的单一索引还是每个帐户一个索引更好？每种方法的优缺点是什么我担心的是，由于频繁更新，全局索引可能会影响性能多谢各位编辑估计文件总数：5000000 帐户数目：4000 可索引数据从不在帐户之间共享帐户用户可能每天更新其可索引数据数次（大多数情况下不超过100次）在初始设置过程之后，索引数据量趋于稳定我们需要为每个文档存储10-20个字

我正在评估Lucene在SaaS应用程序中实现全局搜索功能

我们不希望用户看到其他帐户的内容，因此搜索将始终受到帐户的限制

使用一个带有帐户id字段的单一索引还是每个帐户一个索引更好？每种方法的优缺点是什么

我担心的是，由于频繁更新，全局索引可能会影响性能

多谢各位

编辑

估计文件总数：5000000
帐户数目：4000
可索引数据从不在帐户之间共享
帐户用户可能每天更新其可索引数据数次（大多数情况下不超过100次）
在初始设置过程之后，索引数据量趋于稳定
我们需要为每个文档存储10-20个字段

lucene返回排名结果的方式取决于一些“语料库范围”的统计数据，例如某个术语在该字段中出现的文档总数。因此，如果客户a的索引统计数据不适用于客户b，那么除了存在安全风险之外，它还会损害两个客户的相关性。。。如果oscar足够聪明，他真的可以开始反转bob的文档，因为反向索引的性质：您可能可以使用类似以下排序算法的方法来解决此问题：
lucene中的其他一些东西适用于“作为一个整体的字段”或“作为一个整体的索引”，您应该知道，如果您将索引分组在一起，它们就不能在每个客户的基础上进行真正的更改：例如ommittf（如果您为一个字段在单个文档上设置它，则该字段将被完全忽略）、相似性（在lucene的任何发布版本中，您只能全面设置相似度，因此客户无法调整排名模型）、拼写检查（您必须修改一些内容，每个客户都有自己的“过滤”拼写检查索引）
另一方面，如果您有许多术语，则需要相当多的RAM，并且通过为每个客户提供自己的索引，您将需要更多的内存来保存所有索引的RAM中的术语索引。但是，您可以通过调整termIndexInterval/除数之类的内容来降低这一点