Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/286.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/list/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/svg/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 为dask数据帧列创建dask列表_Python_List_Dask - Fatal编程技术网

Python 为dask数据帧列创建dask列表

Python 为dask数据帧列创建dask列表,python,list,dask,Python,List,Dask,我想要一个dask数据帧列的唯一值列表。在unique()之后使用compute()是可行的,但它需要很多时间,并且没有并行性 数据={'Name':['Tom','nick','krish','jack','krish','jack'],'Age':[20,21,19,18,25,31]} #创建数据帧 df=pd.DataFrame(数据) df=dd.from_熊猫(df,npartitions=3) list=df.Name.unique().compute() 我试图得到的是一个d

我想要一个dask数据帧列的唯一值列表。在unique()之后使用compute()是可行的,但它需要很多时间,并且没有并行性


数据={'Name':['Tom','nick','krish','jack','krish','jack'],'Age':[20,21,19,18,25,31]}
#创建数据帧
df=pd.DataFrame(数据)
df=dd.from_熊猫(df,npartitions=3)
list=df.Name.unique().compute()
我试图得到的是一个dask列表,而不使用计算机

list=['Tom','nick','krish','jack']

当您操作文本数据时,Pandas无法释放GIL,因此默认的基于线程的并行性将无效。你应该考虑使用过程。请参见操作文本数据时,Pandas无法释放GIL,因此默认的基于线程的并行性将无效。你应该考虑使用过程。看

我不明白你的问题是什么?你的真实数据帧有多少行?数百万行,这就是我使用dask而不是熊猫的原因。它应该并行化。如果使用
task=df.Name.unique()可视化任务图;task.visualize()
您将看到它确实如此。你确定那是慢的部分吗?您真的是先将数据读入pandas数据帧,然后读入Dask数据帧吗?我只是出于示例的目的在pandas中读取数据。我的问题不是df.Name.unique()太慢,而是我需要把它做成一个列表,这样我就可以遍历它并尝试找出如何创建dask列表。list=df.Name.unique()。我想答案取决于你想对列表做什么?我不明白你的问题是什么?你的真实数据帧有多少行?数百万行,这就是我使用dask而不是熊猫的原因。它应该并行化。如果使用
task=df.Name.unique()可视化任务图;task.visualize()
您将看到它确实如此。你确定那是慢的部分吗?您真的是先将数据读入pandas数据帧,然后读入Dask数据帧吗?我只是出于示例的目的在pandas中读取数据。我的问题不是df.Name.unique()太慢,而是我需要把它做成一个列表,这样我就可以遍历它并尝试找出如何创建dask列表。list=df.Name.unique()。我想答案取决于你想对列表做什么?