Python 如何在需要检查数据帧中的所有行时进行并行化_Python_Pandas_Multiprocessing

Python 如何在需要检查数据帧中的所有行时进行并行化

python pandas

Python 如何在需要检查数据帧中的所有行时进行并行化,python,pandas,multiprocessing,Python,Pandas,Multiprocessing,我有一个数据框，它有一百万行和将近100个特性。我需要首先将它们的一个特征转换成字符串，然后删除几乎17个特征。然后我需要向数据帧添加一列，这个列称为pred。我在本列中添加的方法是，如果-1发现所有具有此类的行的pred值都为-1，则按行的“Reta”特性对行进行分组，否则为1；这可以通过以下代码完成： #getting the prediction hs_p={} for i in range(len(classes)): class_name=class

我有一个数据框，它有一百万行和将近100个特性。我需要首先将它们的一个特征转换成字符串，然后删除几乎17个特征。然后我需要向数据帧添加一列，这个列称为pred。我在本列中添加的方法是，如果-1发现所有具有此类的行的pred值都为-1，则按行的“Reta”特性对行进行分组，否则为1；这可以通过以下代码完成：

 #getting the prediction 
    hs_p={}
    for i in range(len(classes)):
        class_name=classes[i]
        #this can be rewritten 3shan law l2aina -1  n-stop bdl ma n-check kolo
        check=df.loc[df['CLUSTER'] == class_name]['Reta'].values.tolist()
        if (-1 in check):
            hs_p[class_name]=-1
        else:
            hs_p[class_name]=1
        hs_p_col=[]
    print("prediction done")
    #Adding the prediction column to the df
    for i in hs_p:
        df.loc[df['CLUSTER'] == i, 'pred'] = hs_p[i]

问题是数据非常庞大，我花了很多时间运行，但仍然没有结果。我考虑过使用python中的多处理库进行并行化。但是，我确实理解多处理将数据帧划分为多个块，因此第一个块将有一些类行，而另一个块将有其余的类行，因此pred列将无法准确完成。有什么办法吗