使用Python进行重复分析

使用Python进行重复分析,python,pandas,duplicates,data-analysis,Python,Pandas,Duplicates,Data Analysis,我是Python的初学者 到目前为止,我已经使用pandas lib识别了重复项,但不知道这将如何帮助我 import pandas as pd import numpy as np dataframe = pd.read_csv("HKTW_INDIA_Duplicate_Account.csv") dataframe.info() name = dataframe["PARTY_NAME"duplicate_data=dataframe[name.is

我是Python的初学者

到目前为止,我已经使用pandas lib识别了重复项,但不知道这将如何帮助我

import pandas as pd
import numpy as np
dataframe = pd.read_csv("HKTW_INDIA_Duplicate_Account.csv")
dataframe.info()
name = dataframe["PARTY_NAME"duplicate_data=dataframe[name.isin(name[name.duplicated()])].sort_values("PARTY_NAME")
duplicate_data.head()
我想要的是:我有一组重复的数据,我需要根据某些条件合并重复的数据,并需要在新列中填充反馈

我也可以在Excel中手动执行此操作,但记录非常高,这将耗费大量时间。(超过40000行)

条件:

  • 只有那些在拆分列中有“N”且当前金额为空的账户才能合并。 预期产出:
  • 值是否在辅助帐户ID中。 示例:第2行没有任何辅助注册表ID,并且在Amount\u Total&Amount\u Todat中没有任何值,但第1行在Secondary\u Account\u ID中有该值,因此在这种情况下,第2行可以合并到第1行,因为两者具有相同的名称。在备注栏中,它应该给我赢家帐户的次要id(第2行和第1行),并从第1行复制帐户id并粘贴到(第2行和第1行)(列“新id”) 预期产出:
  • 如果重复账户的金额为总计金额和当前金额,则不应合并。 预期产出:
  • 如果重复帐户在次要帐户ID中没有任何值,则它将检查“今日金额”或“总计金额”列,如果这两列中有值,则这两列中没有值的帐户将合并到另一列。 预期产出:
  • 如果一个重复的账户有多个辅助ID,并且如果一个账户的当前金额或总金额可用,则该账户将被视为赢家账户。 预期产出:
  • 如果一个重复帐户中有多个帐户具有辅助ID,并且如果多个帐户可以使用“今日金额”或“总金额”,则“总金额”值最大的帐户将被视为赢家帐户。 预期产出:
  • 如果SudialAuthActudio ID、ToalGuy金额和TayayIn金额为空,则应考虑最老的帐户。 预期产出:

  • 请将数据添加为文本,而不是图像。此外,这个问题需要更加集中。始终以文本形式提供代码、数据、错误、当前输出和预期输出。只有绘图图像是可以的。请看。嗨,特伦顿,谢谢你的建议,我已经更新了文本格式的数据。请将您的数据框添加为pd.dataframe()格式,然后我可以将其放入我的IDE中
    Primary Account ID  Secondary Account ID    Account Name    Translated Name    Created on Date    Amount Today   Amount Total   Split   Reamrks New ID
        1234                     245            Julia              Julia            24-May-20           530              45           N     
        2345                                    Julia              Julia            24-Sep-20                                         N     
        3456                      42            Sara               Sara             24-Aug-20           230                           Y     
        4567                                    Sara               Sara             24-Sep-20                                         Y     
        5678                                    Matt               Matt             24-Jun-20                                         N
        6789                                    Matt               Matt             24-Sep-20                                         N 
        7890                      58            Robert             Robert           24-Feb-20           525              21           N     
        1937                                    Robert             Robert           24-Sep-20                                         N     
        7854                      55            Robert             Robert           24-Jan-20           543              74           N