Python 如何在需要检查数据帧中的所有行时进行并行化
我有一个数据框,它有一百万行和将近100个特性。我需要首先将它们的一个特征转换成字符串,然后删除几乎17个特征。然后我需要向数据帧添加一列,这个列称为pred。我在本列中添加的方法是,如果-1发现所有具有此类的行的pred值都为-1,则按行的“Reta”特性对行进行分组,否则为1;这可以通过以下代码完成:Python 如何在需要检查数据帧中的所有行时进行并行化,python,pandas,multiprocessing,Python,Pandas,Multiprocessing,我有一个数据框,它有一百万行和将近100个特性。我需要首先将它们的一个特征转换成字符串,然后删除几乎17个特征。然后我需要向数据帧添加一列,这个列称为pred。我在本列中添加的方法是,如果-1发现所有具有此类的行的pred值都为-1,则按行的“Reta”特性对行进行分组,否则为1;这可以通过以下代码完成: #getting the prediction hs_p={} for i in range(len(classes)): class_name=class
#getting the prediction
hs_p={}
for i in range(len(classes)):
class_name=classes[i]
#this can be rewritten 3shan law l2aina -1 n-stop bdl ma n-check kolo
check=df.loc[df['CLUSTER'] == class_name]['Reta'].values.tolist()
if (-1 in check):
hs_p[class_name]=-1
else:
hs_p[class_name]=1
hs_p_col=[]
print("prediction done")
#Adding the prediction column to the df
for i in hs_p:
df.loc[df['CLUSTER'] == i, 'pred'] = hs_p[i]
问题是数据非常庞大,我花了很多时间运行,但仍然没有结果。我考虑过使用python中的多处理库进行并行化。但是,我确实理解多处理将数据帧划分为多个块,因此第一个块将有一些类行,而另一个块将有其余的类行,因此pred列将无法准确完成。有什么办法吗