使用Python进行重复分析
我是Python的初学者 到目前为止,我已经使用pandas lib识别了重复项,但不知道这将如何帮助我使用Python进行重复分析,python,pandas,duplicates,data-analysis,Python,Pandas,Duplicates,Data Analysis,我是Python的初学者 到目前为止,我已经使用pandas lib识别了重复项,但不知道这将如何帮助我 import pandas as pd import numpy as np dataframe = pd.read_csv("HKTW_INDIA_Duplicate_Account.csv") dataframe.info() name = dataframe["PARTY_NAME"duplicate_data=dataframe[name.is
import pandas as pd
import numpy as np
dataframe = pd.read_csv("HKTW_INDIA_Duplicate_Account.csv")
dataframe.info()
name = dataframe["PARTY_NAME"duplicate_data=dataframe[name.isin(name[name.duplicated()])].sort_values("PARTY_NAME")
duplicate_data.head()
我想要的是:我有一组重复的数据,我需要根据某些条件合并重复的数据,并需要在新列中填充反馈
我也可以在Excel中手动执行此操作,但记录非常高,这将耗费大量时间。(超过40000行)
条件:
请将数据添加为文本,而不是图像。此外,这个问题需要更加集中。始终以文本形式提供代码、数据、错误、当前输出和预期输出。只有绘图图像是可以的。请看。嗨,特伦顿,谢谢你的建议,我已经更新了文本格式的数据。请将您的数据框添加为pd.dataframe()格式,然后我可以将其放入我的IDE中
Primary Account ID Secondary Account ID Account Name Translated Name Created on Date Amount Today Amount Total Split Reamrks New ID
1234 245 Julia Julia 24-May-20 530 45 N
2345 Julia Julia 24-Sep-20 N
3456 42 Sara Sara 24-Aug-20 230 Y
4567 Sara Sara 24-Sep-20 Y
5678 Matt Matt 24-Jun-20 N
6789 Matt Matt 24-Sep-20 N
7890 58 Robert Robert 24-Feb-20 525 21 N
1937 Robert Robert 24-Sep-20 N
7854 55 Robert Robert 24-Jan-20 543 74 N