elasticsearch,Search,Indexing,elasticsearch" /> elasticsearch,Search,Indexing,elasticsearch" />

Search 基于云的归档搜索/索引系统

Search 基于云的归档搜索/索引系统,search,indexing,elasticsearch,Search,Indexing,elasticsearch,我参与了一个项目,该项目正在开发一个需要索引来搜索文档的归档系统 该产品的目标是在很长的时间(几年)内归档数千万份文档 我想到了CloudSearch和Solr(我最感兴趣的是前者) 问题是,我怀疑我们的需求在某种程度上比大多数搜索问题“更容易”,我想知道是否有其他解决方案可以为长期存档提供更好的折衷 特别是: 我们的使用模式是大量写入(索引),但很少读取(搜索) 搜索的速度并不重要,因为这些搜索会有明确的目标(例如,多年后挖掘法律案件的记录)。例如,10秒的延迟可能是正常的。即使是需要一小时

我参与了一个项目,该项目正在开发一个需要索引来搜索文档的归档系统

该产品的目标是在很长的时间(几年)内归档数千万份文档

我想到了CloudSearch和Solr(我最感兴趣的是前者)

问题是,我怀疑我们的需求在某种程度上比大多数搜索问题“更容易”,我想知道是否有其他解决方案可以为长期存档提供更好的折衷

特别是:

  • 我们的使用模式是大量写入(索引),但很少读取(搜索)
  • 搜索的速度并不重要,因为这些搜索会有明确的目标(例如,多年后挖掘法律案件的记录)。例如,10秒的延迟可能是正常的。即使是需要一小时才能完成的“批量”搜索也可以
  • 我们可以通过简单的关键字搜索逃脱。我们不需要进行复杂的布尔查询
  • 搜索基数将非常大:我们希望有上千万条可搜索的记录
  • 冗余并不是那么重要——索引不是规范的记录源
我知道ElasticSearch已经成功地用于这种规模,但我只是想知道是否有人可以建议一种需要更少资源(例如,更少的服务器、更紧凑的存储要求、更易于设置和管理等)的替代方案,以平衡这些权衡

欢迎任何建议

谢谢


John

存储要求和速度需要更多信息,但我们有助于提供“更易于设置和管理”部分。 您可以试试我们: qbox.io