Python 处理来自大型数据抓取的数据_Python_Database_Mongodb_Twitter_Archive

Python 处理来自大型数据抓取的数据

python database mongodb twitter

Python 处理来自大型数据抓取的数据,python,database,mongodb,twitter,archive,Python,Database,Mongodb,Twitter,Archive,我从archive.org下载了一个大型（>75GB）数据抓取，其中包含2020年6月的大部分或全部推文。归档文件本身由31个.tar文件组成，每个文件包含嵌套文件夹，最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此归档文件中存储的数据的方法。我想使用MongoDB，因为它基于文档的数据库结构似乎非常适合此归档中的数据类型。这样做的最佳方式是什么以下是归档文件的外观：任何帮助都将不胜感激编辑-说清楚点，我不打算使用MongoDB。我也对其他数据库解决方案持开

我从archive.org下载了一个大型（>75GB）数据抓取，其中包含2020年6月的大部分或全部推文。归档文件本身由31个.tar文件组成，每个文件包含嵌套文件夹，最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此归档文件中存储的数据的方法。我想使用MongoDB，因为它基于文档的数据库结构似乎非常适合此归档中的数据类型。这样做的最佳方式是什么

以下是归档文件的外观：

任何帮助都将不胜感激

编辑-说清楚点，我不打算使用MongoDB。我也对其他数据库解决方案持开放态度。

MongoDB当然不是一个好主意。因为您需要在RAM中加载数据库。除非您有一个集群，否则您肯定没有足够的RAM来承载此内容

因此，如果您仍然希望使用mongoDB，那么您可能需要对其进行过滤。

那么，mongoDB还有其他选择吗？或者，如果我先对它进行过滤，我将如何以编程方式进行过滤？