Python 处理来自大型数据抓取的数据
我从archive.org下载了一个大型(>75GB)数据抓取,其中包含2020年6月的大部分或全部推文。归档文件本身由31个.tar文件组成,每个文件包含嵌套文件夹,最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此归档文件中存储的数据的方法。我想使用MongoDB,因为它基于文档的数据库结构似乎非常适合此归档中的数据类型。这样做的最佳方式是什么 以下是归档文件的外观: 任何帮助都将不胜感激Python 处理来自大型数据抓取的数据,python,database,mongodb,twitter,archive,Python,Database,Mongodb,Twitter,Archive,我从archive.org下载了一个大型(>75GB)数据抓取,其中包含2020年6月的大部分或全部推文。归档文件本身由31个.tar文件组成,每个文件包含嵌套文件夹,最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此归档文件中存储的数据的方法。我想使用MongoDB,因为它基于文档的数据库结构似乎非常适合此归档中的数据类型。这样做的最佳方式是什么 以下是归档文件的外观: 任何帮助都将不胜感激 编辑-说清楚点,我不打算使用MongoDB。我也对其他数据库解决方案持开
编辑-说清楚点,我不打算使用MongoDB。我也对其他数据库解决方案持开放态度。MongoDB当然不是一个好主意。因为您需要在RAM中加载数据库。除非您有一个集群,否则您肯定没有足够的RAM来承载此内容
因此,如果您仍然希望使用mongoDB,那么您可能需要对其进行过滤。那么,mongoDB还有其他选择吗?或者,如果我先对它进行过滤,我将如何以编程方式进行过滤?