Mongodb 如何快速处理数据?

Mongodb 如何快速处理数据?,mongodb,distributed-computing,Mongodb,Distributed Computing,我们有50GB(100万个文档)原始数据存储在MongoDB中。我必须转换/处理数据并将其传输到另一个数据库 读、处理和写大约需要30分钟,但我们需要在几秒钟/分钟内完成 我需要什么来尽快读取数据,以便在几秒钟内迭代所有文档?应该适用于您的用例。 应该可以帮助您开始使用Spark 这将帮助您开始使用Spark上的MongoDb 现在,一旦spark应用程序启动,您需要通过在某个集群上运行来扩展它。应该会在这次冒险中帮助你。可能会有很多东西,但你给我们的东西太少了。可能您需要更好的索引来支持您的查

我们有50GB(100万个文档)原始数据存储在MongoDB中。我必须转换/处理数据并将其传输到另一个数据库

读、处理和写大约需要30分钟,但我们需要在几秒钟/分钟内完成

我需要什么来尽快读取数据,以便在几秒钟内迭代所有文档?

应该适用于您的用例。 应该可以帮助您开始使用Spark

这将帮助您开始使用Spark上的MongoDb


现在,一旦spark应用程序启动,您需要通过在某个集群上运行来扩展它。应该会在这次冒险中帮助你。

可能会有很多东西,但你给我们的东西太少了。可能您需要更好的索引来支持您的查询;或者,您可能需要具有更快IO的磁盘,或者您需要跨多台服务器并行处理;有太多的可能性。我想我应该有一个更快的I/O或类似并行I/O的东西,这样我可以快速访问文档。因为迭代所有文档几乎需要20分钟。是否可以在几秒钟内迭代50GB的数据?您是否有任何特定的查询需要在MongoDB上运行,或者只想传输整个数据?