Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/325.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在需要检查数据帧中的所有行时进行并行化_Python_Pandas_Multiprocessing - Fatal编程技术网

Python 如何在需要检查数据帧中的所有行时进行并行化

Python 如何在需要检查数据帧中的所有行时进行并行化,python,pandas,multiprocessing,Python,Pandas,Multiprocessing,我有一个数据框,它有一百万行和将近100个特性。我需要首先将它们的一个特征转换成字符串,然后删除几乎17个特征。然后我需要向数据帧添加一列,这个列称为pred。我在本列中添加的方法是,如果-1发现所有具有此类的行的pred值都为-1,则按行的“Reta”特性对行进行分组,否则为1;这可以通过以下代码完成: #getting the prediction hs_p={} for i in range(len(classes)): class_name=class

我有一个数据框,它有一百万行和将近100个特性。我需要首先将它们的一个特征转换成字符串,然后删除几乎17个特征。然后我需要向数据帧添加一列,这个列称为pred。我在本列中添加的方法是,如果-1发现所有具有此类的行的pred值都为-1,则按行的“Reta”特性对行进行分组,否则为1;这可以通过以下代码完成:

 #getting the prediction 
    hs_p={}
    for i in range(len(classes)):
        class_name=classes[i]
        #this can be rewritten 3shan law l2aina -1  n-stop bdl ma n-check kolo
        check=df.loc[df['CLUSTER'] == class_name]['Reta'].values.tolist()
        if (-1 in check):
            hs_p[class_name]=-1
        else:
            hs_p[class_name]=1
        hs_p_col=[]
    print("prediction done")
    #Adding the prediction column to the df
    for i in hs_p:
        df.loc[df['CLUSTER'] == i, 'pred'] = hs_p[i]
问题是数据非常庞大,我花了很多时间运行,但仍然没有结果。我考虑过使用python中的多处理库进行并行化。但是,我确实理解多处理将数据帧划分为多个块,因此第一个块将有一些类行,而另一个块将有其余的类行,因此pred列将无法准确完成。有什么办法吗