Python 使用Spark提供的内存中分布式数据库替换Berkeley DB

Python 使用Spark提供的内存中分布式数据库替换Berkeley DB,python,database,apache-spark,pyspark,in-memory-database,Python,Database,Apache Spark,Pyspark,In Memory Database,这是一个软件架构问题,而不是一个特定的编程问题。所以我希望它被正确地放在这里 目前,我们已经实现了几个Python脚本,它们正在向Berkeley DB加载大约100GB(类似键值)的数据。在执行其他计算之前,仅进行一次加载。然后还有其他并行脚本正在从数据库中读取 我们总是将这个机制旋转一次,大约需要1小时(它已经高度优化了)。我们知道可能会有大约百万种不同的计算像这样运行,所以我们决定使用最有可能的Spark来预计算所有东西 我想问一下,是否已经存在一些可能的分布式高速内存数据库,这将取代伯克

这是一个软件架构问题,而不是一个特定的编程问题。所以我希望它被正确地放在这里

目前,我们已经实现了几个Python脚本,它们正在向Berkeley DB加载大约100GB(类似键值)的数据。在执行其他计算之前,仅进行一次加载。然后还有其他并行脚本正在从数据库中读取

我们总是将这个机制旋转一次,大约需要1小时(它已经高度优化了)。我们知道可能会有大约百万种不同的计算像这样运行,所以我们决定使用最有可能的Spark来预计算所有东西

我想问一下,是否已经存在一些可能的分布式高速内存数据库,这将取代伯克利数据库?(一次读取所有数据,用超快的查询在几周内完成大量计算)

目前我们正在研究Spark和PySpark,但与Berkeley DB相比,使用它的内存缓存似乎要慢一些

有人有什么建议我们可以在这里使用吗