导入并使用大型数据集(Python初学者)

导入并使用大型数据集(Python初学者),python,pandas,tensorflow,out-of-memory,dask,Python,Pandas,Tensorflow,Out Of Memory,Dask,因为我找不到最好的办法来处理我的问题,所以我来这里问。。 我是Python的初学者,但我必须处理大型数据集 然而,我不知道处理“内存错误”问题的最佳方法是什么。 我已经有了64位的3.7.3 Python版本 我看到我们可以使用TensorFlow,或者在pandas指令中指定块,或者使用库Dask,但我不知道哪一个最适合我的问题,作为初学者,这还不是很清楚 我有一个巨大的数据集(超过100万次观测),我不认为减少数据集会减少很多内存 我想做的是用一列测试和测试样本来测试多个ML算法。我不知道如

因为我找不到最好的办法来处理我的问题,所以我来这里问。。 我是Python的初学者,但我必须处理大型数据集

然而,我不知道处理“内存错误”问题的最佳方法是什么。 我已经有了64位的3.7.3 Python版本

我看到我们可以使用TensorFlow,或者在pandas指令中指定块,或者使用库Dask,但我不知道哪一个最适合我的问题,作为初学者,这还不是很清楚

我有一个巨大的数据集(超过100万次观测),我不认为减少数据集会减少很多内存

我想做的是用一列测试和测试样本来测试多个ML算法。我不知道如何处理这个问题


谢谢

正如您所提到的,您最好的选择是使用pandas或TensorFlow,因为这些库不会将所有数据读入内存。事实上,整个“现代熊猫”系列对于初学者(以及其他所有人)来说都是一个极好的资源。使用Tensorflow
Tfrecord
加载大型数据集。有关库的更多详细信息,请查找。谢谢