Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x Py表格vs Blaze vs S框架_Python 3.x_Pandas_Hdf5_Pytables_Blaze - Fatal编程技术网

Python 3.x Py表格vs Blaze vs S框架

Python 3.x Py表格vs Blaze vs S框架,python-3.x,pandas,hdf5,pytables,blaze,Python 3.x,Pandas,Hdf5,Pytables,Blaze,我正在使用python对一个巨大的数据集(约2000万条记录和10列)进行探索性数据分析。我将分割、聚合数据并创建一些可视化,我还可以使用该数据集创建一些决策树线性回归模型 由于数据集很大,我需要使用允许核心外数据存储的数据帧。因为我对Python比较陌生,并且使用大型数据集,所以我想使用一种方法,使我能够轻松地在数据集上使用sklearn。我对使用Py表格、Blaze或s-Frame进行此练习感到困惑。如果有人能帮我了解他们的优点和缺点。在这种决策过程中,哪些因素是重要的,我们会非常感激 好问

我正在使用python对一个巨大的数据集(约2000万条记录和10列)进行探索性数据分析。我将分割、聚合数据并创建一些可视化,我还可以使用该数据集创建一些决策树线性回归模型


由于数据集很大,我需要使用允许核心外数据存储的数据帧。因为我对Python比较陌生,并且使用大型数据集,所以我想使用一种方法,使我能够轻松地在数据集上使用sklearn。我对使用Py表格、Blaze或s-Frame进行此练习感到困惑。如果有人能帮我了解他们的优点和缺点。在这种决策过程中,哪些因素是重要的,我们会非常感激

好问题!您可以考虑的一个选项是不使用任何形式的库,而是用块读取和处理文件块,类似这样的内容:

csv=”““\path\to\file.csv”“”

pandas允许通过文件迭代器从(大)文件逐块读取数据:

it=pd.read\u csv(csv,iterator=True,chunksize=20000000/10)

对于i,枚举中的块(it):

…我没有想到那件事。这会在我的列表中添加另一个选项。你能详细说明一下这些选项的优缺点和局限性吗?这取决于你想做什么样的操作:如果是数据处理,那么上面提到的方法是有效的。但是,如果您有时间,请浏览您提到的库(希望将PySpark添加到列表中)。然而,如果您的瓶颈是将sklearn方法应用于数据,则sklearn支持
partial_-fit
,这将一次训练一个模块。一篇关于这个的好博客文章,谢谢@user3744868。这很有帮助。