Python 3.x DASK中是否有任何方法可以在计算数据集中的不同值时创建并行性
我已成功地从数据集中提取了特定单词的计数,但这花费了太多时间。我不熟悉并行编程。 如何在以下代码中创建并行性:Python 3.x DASK中是否有任何方法可以在计算数据集中的不同值时创建并行性,python-3.x,parallel-processing,dask,Python 3.x,Parallel Processing,Dask,我已成功地从数据集中提取了特定单词的计数,但这花费了太多时间。我不熟悉并行编程。 如何在以下代码中创建并行性: df = dd.read_csv('crime.csv', encoding="ISO-8859-1") distinct_values = df.YEAR.unique().compute() counter = len(distinct_values) values_count = {} for i in distinct_values: count = df[df.Y
df = dd.read_csv('crime.csv', encoding="ISO-8859-1")
distinct_values = df.YEAR.unique().compute()
counter = len(distinct_values)
values_count = {}
for i in distinct_values:
count = df[df.YEAR == i].YEAR.value_counts().compute()
values_count.update(count)
list = []
for x, y in values_count.items():
dict = {}
for i in x, y:
dict['name'] = x
dict['value'] = y
# print(dict)
list.append(dict)
# print(list)
maximum = max(distinct_values)
mininmum = min(distinct_values)
也许您正在寻找如下所示的groupby聚合
df.groupby("YEAR").count.compute()
或者,如果您需要执行同样多的操作,您至少应该对许多输入使用dask.compute
函数,而不是多次调用.compute
方法