Python 使用dask将CSV文件转换为拼花地板(jupyter内核崩溃)
我正在尝试使用jupyter笔记本将一个相当大的CSV文件转换成拼花地板格式。但是,当尝试转换时,笔记本会重新启动 由于dask会调整内存大小并加载适合内存的数据块,因此在执行大于内存的数据集时,不应发生此错误。(内核崩溃背后的原因是内存过载)。我在dask的一台机器上运行这个内核 代码如下Python 使用dask将CSV文件转换为拼花地板(jupyter内核崩溃),python,tensorflow,jupyter-notebook,dask,parquet,Python,Tensorflow,Jupyter Notebook,Dask,Parquet,我正在尝试使用jupyter笔记本将一个相当大的CSV文件转换成拼花地板格式。但是,当尝试转换时,笔记本会重新启动 由于dask会调整内存大小并加载适合内存的数据块,因此在执行大于内存的数据集时,不应发生此错误。(内核崩溃背后的原因是内存过载)。我在dask的一台机器上运行这个内核 代码如下 进口达斯克 将dask.dataframe作为dd导入 从dask.distributed导入客户端 client=client() merchant=dd.read_csv('/home/michael
进口达斯克
将dask.dataframe作为dd导入
从dask.distributed导入客户端
client=client()
merchant=dd.read_csv('/home/michael/Elo_merchant/merchants.csv'))
merchant.to_parquet('merchants.parquet')#内核在运行此行时重新启动。
更新:
我用终端运行同样的东西,并得到了这个错误
>>商户对拼花地板(“商户对拼花地板”)
2019-03-06 13:22:29.293680:F tensorflow/core/platform/cpu\u feature\u guard.cc:37]tensorflow库编译为使用AVX指令,但这些指令在您的机器上不可用。
流产
$/usr/lib/python3.5/multiprocessing/semaphore\u tracker.py:129:UserWarning:semaphore\u tracker:似乎有12个泄漏的信号要在关机时清理
len(缓存))
有谁能在这件事上帮助我吗
谢谢
迈克尔我找到了解决问题的办法。我将拼花地板转换引擎更改为
fastparquet
。代码如下。我以前只安装了pyarrow
。如果两者都已安装,fastparquet将成为默认引擎。尽管如此,我还是在代码中显示了,否则,它将与上面的代码相同
导入dask.dataframe作为dd
merchant=dd.read_csv('/home/michael/Elo_merchant/merchants.csv'))
商人。to_拼花地板('merchants.parquet',engine='fastparquet')#起作用
希望这有帮助
谢谢
迈克尔