Python 为dask数据帧列创建dask列表
我想要一个dask数据帧列的唯一值列表。在unique()之后使用compute()是可行的,但它需要很多时间,并且没有并行性Python 为dask数据帧列创建dask列表,python,list,dask,Python,List,Dask,我想要一个dask数据帧列的唯一值列表。在unique()之后使用compute()是可行的,但它需要很多时间,并且没有并行性 数据={'Name':['Tom','nick','krish','jack','krish','jack'],'Age':[20,21,19,18,25,31]} #创建数据帧 df=pd.DataFrame(数据) df=dd.from_熊猫(df,npartitions=3) list=df.Name.unique().compute() 我试图得到的是一个d
数据={'Name':['Tom','nick','krish','jack','krish','jack'],'Age':[20,21,19,18,25,31]}
#创建数据帧
df=pd.DataFrame(数据)
df=dd.from_熊猫(df,npartitions=3)
list=df.Name.unique().compute()
我试图得到的是一个dask列表,而不使用计算机
list=['Tom','nick','krish','jack']
当您操作文本数据时,Pandas无法释放GIL,因此默认的基于线程的并行性将无效。你应该考虑使用过程。请参见操作文本数据时,Pandas无法释放GIL,因此默认的基于线程的并行性将无效。你应该考虑使用过程。看我不明白你的问题是什么?你的真实数据帧有多少行?数百万行,这就是我使用dask而不是熊猫的原因。它应该并行化。如果使用task=df.Name.unique()可视化任务图;task.visualize()
您将看到它确实如此。你确定那是慢的部分吗?您真的是先将数据读入pandas数据帧,然后读入Dask数据帧吗?我只是出于示例的目的在pandas中读取数据。我的问题不是df.Name.unique()太慢,而是我需要把它做成一个列表,这样我就可以遍历它并尝试找出如何创建dask列表。list=df.Name.unique()。我想答案取决于你想对列表做什么?我不明白你的问题是什么?你的真实数据帧有多少行?数百万行,这就是我使用dask而不是熊猫的原因。它应该并行化。如果使用task=df.Name.unique()可视化任务图;task.visualize()
您将看到它确实如此。你确定那是慢的部分吗?您真的是先将数据读入pandas数据帧,然后读入Dask数据帧吗?我只是出于示例的目的在pandas中读取数据。我的问题不是df.Name.unique()太慢,而是我需要把它做成一个列表,这样我就可以遍历它并尝试找出如何创建dask列表。list=df.Name.unique()。我想答案取决于你想对列表做什么?