加快大型数据集mongodb上的聚合查询_Mongodb_Performance_Apache Spark

加快大型数据集mongodb上的聚合查询

mongodb performance apache-spark

加快大型数据集mongodb上的聚合查询,mongodb,performance,apache-spark,Mongodb,Performance,Apache Spark,我有48.919.581个文档存储在mongoDB（~11GB）中，需要对其执行aggrergations。聚合结果花费的时间太长，我们说的是几分钟，而我几乎是在瞬间需要这些结果我曾想过使用ApacheSpark使用预先计算的数据创建VUE，并对这些视图执行聚合。我创建了一个视图来测试在我的机器上本地运行的spark：它有1700万个文档，聚合查询仍然非常慢。另外，存储所有视图需要太多存储空间我在一台有12GB ram和2个内核（4个逻辑内核）的计算机上工作，但要部署应用程序的生产服务器有

我有48.919.581个文档存储在mongoDB（~11GB）中，需要对其执行aggrergations。聚合结果花费的时间太长，我们说的是几分钟，而我几乎是在瞬间需要这些结果

我曾想过使用ApacheSpark使用预先计算的数据创建VUE，并对这些视图执行聚合。我创建了一个视图来测试在我的机器上本地运行的spark：它有1700万个文档，聚合查询仍然非常慢。另外，存储所有视图需要太多存储空间

我在一台有12GB ram和2个内核（4个逻辑内核）的计算机上工作，但要部署应用程序的生产服务器有128GB ram和8个内核（16个逻辑内核）

我没有专业经验，因此无法估计查询在生产服务器上需要多少时间

有没有办法加快聚合速度？如果没有，是否还有其他更适合聚合的数据库

我相信您已经尝试过了，但是mongo让我们解释一下您的查询，以及它所走的道路。制作一些索引，并使用explain进行测试？我确实这样做了，但聚合不会使用索引，除非您在聚合管道中指定限制、匹配、排序和跳过。我相信您已经尝试过这一点，但mongo让您解释一下您的查询，以及它所采用的路径。制作一些索引，并使用explain进行测试？我确实这样做了，但是聚合不会使用索引，除非您在聚合管道中指定限制、匹配、排序和跳过。