Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用dask将CSV文件转换为拼花地板(jupyter内核崩溃)_Python_Tensorflow_Jupyter Notebook_Dask_Parquet - Fatal编程技术网

Python 使用dask将CSV文件转换为拼花地板(jupyter内核崩溃)

Python 使用dask将CSV文件转换为拼花地板(jupyter内核崩溃),python,tensorflow,jupyter-notebook,dask,parquet,Python,Tensorflow,Jupyter Notebook,Dask,Parquet,我正在尝试使用jupyter笔记本将一个相当大的CSV文件转换成拼花地板格式。但是,当尝试转换时,笔记本会重新启动 由于dask会调整内存大小并加载适合内存的数据块,因此在执行大于内存的数据集时,不应发生此错误。(内核崩溃背后的原因是内存过载)。我在dask的一台机器上运行这个内核 代码如下 进口达斯克 将dask.dataframe作为dd导入 从dask.distributed导入客户端 client=client() merchant=dd.read_csv('/home/michael

我正在尝试使用jupyter笔记本将一个相当大的CSV文件转换成拼花地板格式。但是,当尝试转换时,笔记本会重新启动

由于dask会调整内存大小并加载适合内存的数据块,因此在执行大于内存的数据集时,不应发生此错误。(内核崩溃背后的原因是内存过载)。我在dask的一台机器上运行这个内核

代码如下


进口达斯克
将dask.dataframe作为dd导入
从dask.distributed导入客户端
client=client()
merchant=dd.read_csv('/home/michael/Elo_merchant/merchants.csv'))
merchant.to_parquet('merchants.parquet')#内核在运行此行时重新启动。
更新:

我用终端运行同样的东西,并得到了这个错误

>>商户对拼花地板(“商户对拼花地板”)
2019-03-06 13:22:29.293680:F tensorflow/core/platform/cpu\u feature\u guard.cc:37]tensorflow库编译为使用AVX指令,但这些指令在您的机器上不可用。
流产
$/usr/lib/python3.5/multiprocessing/semaphore\u tracker.py:129:UserWarning:semaphore\u tracker:似乎有12个泄漏的信号要在关机时清理
len(缓存))
有谁能在这件事上帮助我吗

谢谢


迈克尔

我找到了解决问题的办法。我将拼花地板转换引擎更改为
fastparquet
。代码如下。我以前只安装了
pyarrow
。如果两者都已安装,fastparquet将成为默认引擎。尽管如此,我还是在代码中显示了,否则,它将与上面的代码相同

导入dask.dataframe作为dd
merchant=dd.read_csv('/home/michael/Elo_merchant/merchants.csv'))
商人。to_拼花地板('merchants.parquet',engine='fastparquet')#起作用
希望这有帮助

谢谢

迈克尔