Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/349.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 并行数据帧自定义函数Dask_Python_Pandas_Dataframe_Dask - Fatal编程技术网

Python 并行数据帧自定义函数Dask

Python 并行数据帧自定义函数Dask,python,pandas,dataframe,dask,Python,Pandas,Dataframe,Dask,我试图使用Dask通过Dask的多处理特性来加速Python数据帧for循环操作。我完全知道循环数据帧的方法通常不是最佳实践,但在我的情况下,它是必需的。我已经广泛阅读了文档和其他类似的问题,但我似乎无法解决我的问题 df.head() 标题内容 0 Lizzibtz@Ontario2020@Travisdhanraj@fordination。他们并没有增加新冠疫情期间的教育压力。德克萨斯州样本。加上… 1 Jess您可以尝试让Dask处理应用程序,而不是自己进行循环: ddf[“位置”]=dd

我试图使用Dask通过Dask的多处理特性来加速Python数据帧for循环操作。我完全知道循环数据帧的方法通常不是最佳实践,但在我的情况下,它是必需的。我已经广泛阅读了文档和其他类似的问题,但我似乎无法解决我的问题

df.head()
标题内容
0 Lizzibtz@Ontario2020@Travisdhanraj@fordination。他们并没有增加新冠疫情期间的教育压力。德克萨斯州样本。加上…

1 Jess您可以尝试让Dask处理应用程序,而不是自己进行循环:

ddf[“位置”]=ddf[“内容”]。应用(
lambda string:[e.text代表nlp中的e(string).ents如果e.label==“GPE”],
meta=(“内容”、“对象”))

您介意提供一个吗?特别是(至少)您的原始df的示例?请参见编辑-简单数据框,其中包含字符串
标题
和字符串
内容
。为了便于测试,我将Texas添加到head中的每一行中。要运行实际的库,您可能需要
python-mspacy下载en\u core\u web\u sm
,然后在代码中
nlp=en\u core\u web\u sm.load()
。这应该允许函数实际识别位置您介意为您的尝试共享错误吗?也许
df.head().to_dict()
的输出也会很棒。这个
df.head()
的预期输出是什么?这将有助于改进函数。嗯,我非常喜欢这个想法。我现在不是一个工作,所以我不能测试。如果行得通,我会接受。让我知道进展如何。我在一个测试活页夹中启动了它,它对我来说看起来很好,但我不得不删除
nlp
函数,所以我不确定。