Python 使用Spark提供的内存中分布式数据库替换Berkeley DB_Python_Database_Apache Spark_Pyspark_In Memory Database

Python 使用Spark提供的内存中分布式数据库替换Berkeley DB

python database apache-spark pyspark

Python 使用Spark提供的内存中分布式数据库替换Berkeley DB,python,database,apache-spark,pyspark,in-memory-database,Python,Database,Apache Spark,Pyspark,In Memory Database,这是一个软件架构问题，而不是一个特定的编程问题。所以我希望它被正确地放在这里目前，我们已经实现了几个Python脚本，它们正在向Berkeley DB加载大约100GB（类似键值）的数据。在执行其他计算之前，仅进行一次加载。然后还有其他并行脚本正在从数据库中读取我们总是将这个机制旋转一次，大约需要1小时（它已经高度优化了）。我们知道可能会有大约百万种不同的计算像这样运行，所以我们决定使用最有可能的Spark来预计算所有东西我想问一下，是否已经存在一些可能的分布式高速内存数据库，这将取代伯克

这是一个软件架构问题，而不是一个特定的编程问题。所以我希望它被正确地放在这里

目前，我们已经实现了几个Python脚本，它们正在向Berkeley DB加载大约100GB（类似键值）的数据。在执行其他计算之前，仅进行一次加载。然后还有其他并行脚本正在从数据库中读取

我们总是将这个机制旋转一次，大约需要1小时（它已经高度优化了）。我们知道可能会有大约百万种不同的计算像这样运行，所以我们决定使用最有可能的Spark来预计算所有东西

我想问一下，是否已经存在一些可能的分布式高速内存数据库，这将取代伯克利数据库？（一次读取所有数据，用超快的查询在几周内完成大量计算）

目前我们正在研究Spark和PySpark，但与Berkeley DB相比，使用它的内存缓存似乎要慢一些

有人有什么建议我们可以在这里使用吗