Python 3.x Py表格vs Blaze vs S框架_Python 3.x_Pandas_Hdf5_Pytables_Blaze

Python 3.x Py表格vs Blaze vs S框架

python-3.x pandas

Python 3.x Py表格vs Blaze vs S框架,python-3.x,pandas,hdf5,pytables,blaze,Python 3.x,Pandas,Hdf5,Pytables,Blaze,我正在使用python对一个巨大的数据集（约2000万条记录和10列）进行探索性数据分析。我将分割、聚合数据并创建一些可视化，我还可以使用该数据集创建一些决策树线性回归模型由于数据集很大，我需要使用允许核心外数据存储的数据帧。因为我对Python比较陌生，并且使用大型数据集，所以我想使用一种方法，使我能够轻松地在数据集上使用sklearn。我对使用Py表格、Blaze或s-Frame进行此练习感到困惑。如果有人能帮我了解他们的优点和缺点。在这种决策过程中，哪些因素是重要的，我们会非常感激好问

我正在使用python对一个巨大的数据集（约2000万条记录和10列）进行探索性数据分析。我将分割、聚合数据并创建一些可视化，我还可以使用该数据集创建一些决策树线性回归模型

由于数据集很大，我需要使用允许核心外数据存储的数据帧。因为我对Python比较陌生，并且使用大型数据集，所以我想使用一种方法，使我能够轻松地在数据集上使用sklearn。我对使用Py表格、Blaze或s-Frame进行此练习感到困惑。如果有人能帮我了解他们的优点和缺点。在这种决策过程中，哪些因素是重要的，我们会非常感激

好问题！您可以考虑的一个选项是不使用任何形式的库，而是用块读取和处理文件块，类似这样的内容：

csv=”““\path\to\file.csv”“”

pandas允许通过文件迭代器从（大）文件逐块读取数据：

it=pd.read\u csv（csv，iterator=True，chunksize=20000000/10）

对于i，枚举中的块（it）：
…我没有想到那件事。这会在我的列表中添加另一个选项。你能详细说明一下这些选项的优缺点和局限性吗？这取决于你想做什么样的操作：如果是数据处理，那么上面提到的方法是有效的。但是，如果您有时间，请浏览您提到的库（希望将PySpark添加到列表中）。然而，如果您的瓶颈是将sklearn方法应用于数据，则sklearn支持partial_-fit
，这将一次训练一个模块。一篇关于这个的好博客文章，谢谢@user3744868。这很有帮助。