Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/362.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 处理来自大型数据抓取的数据_Python_Database_Mongodb_Twitter_Archive - Fatal编程技术网

Python 处理来自大型数据抓取的数据

Python 处理来自大型数据抓取的数据,python,database,mongodb,twitter,archive,Python,Database,Mongodb,Twitter,Archive,我从archive.org下载了一个大型(>75GB)数据抓取,其中包含2020年6月的大部分或全部推文。归档文件本身由31个.tar文件组成,每个文件包含嵌套文件夹,最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此归档文件中存储的数据的方法。我想使用MongoDB,因为它基于文档的数据库结构似乎非常适合此归档中的数据类型。这样做的最佳方式是什么 以下是归档文件的外观: 任何帮助都将不胜感激 编辑-说清楚点,我不打算使用MongoDB。我也对其他数据库解决方案持开

我从archive.org下载了一个大型(>75GB)数据抓取,其中包含2020年6月的大部分或全部推文。归档文件本身由31个.tar文件组成,每个文件包含嵌套文件夹,最低级别包含几个压缩的.json文件。我需要一种从Python应用程序访问此归档文件中存储的数据的方法。我想使用MongoDB,因为它基于文档的数据库结构似乎非常适合此归档中的数据类型。这样做的最佳方式是什么

以下是归档文件的外观:

任何帮助都将不胜感激


编辑-说清楚点,我不打算使用MongoDB。我也对其他数据库解决方案持开放态度。

MongoDB当然不是一个好主意。因为您需要在RAM中加载数据库。除非您有一个集群,否则您肯定没有足够的RAM来承载此内容


因此,如果您仍然希望使用mongoDB,那么您可能需要对其进行过滤。

那么,mongoDB还有其他选择吗?或者,如果我先对它进行过滤,我将如何以编程方式进行过滤?