如何识别excel单元格中的重复值,并使用python将其列在另一列中?
我刚开始python编程,我被分配了一个excel任务。我必须在excel中的一列中识别重复的值(它大约有850行),然后在新列中列出它们。我是python的新手,因此不知道如何执行此任务。如果有人能分享如何开始这项任务或解决这项任务的任何方法,这将是非常有帮助的。一个示例代码也会非常有用。谢谢您可以使用熊猫,执行以下操作:如何识别excel单元格中的重复值,并使用python将其列在另一列中?,excel,python-3.x,Excel,Python 3.x,我刚开始python编程,我被分配了一个excel任务。我必须在excel中的一列中识别重复的值(它大约有850行),然后在新列中列出它们。我是python的新手,因此不知道如何执行此任务。如果有人能分享如何开始这项任务或解决这项任务的任何方法,这将是非常有帮助的。一个示例代码也会非常有用。谢谢您可以使用熊猫,执行以下操作: import pandas as pd # let's assume this is our data which will be read from the exce
import pandas as pd
# let's assume this is our data which will be read from the excel
rows = [ ( 'a' , 'b' , { 'a' , 'b' } ) , ( 'b' , 'c' , { 'b' , 'c' } )
( 'b' , 'a' , { 'a' , 'b' } ) ]
columns = [ 'x' , 'y' , 'z' ]
# create a dataframe (like a table in excel)
df = pd.DataFrame.from_records( rows , columns = columns)
# you'll need to use: "pd.read_excel('my_excel_fle')" to read the file
>> df
x y z
0 a b {b, a}
1 b c {b, c}
2 b a {b, a}
# now, put the columns which you want to find duplicates of in another column
df["dup_clmns"] = df.z.apply(lambda x: tuple(x))
>>df
x y z dup_clmns
0 a b {b, a} (b, a)
1 b c {b, c} (b, c)
2 b a {b, a} (b, a)
#now use "duplicates" or "drop_duplicates" (or whatever you want)
df.drop_duplicates(subset="dup_clmns", keep="first") # will remove duplicates of (x,y) columns
df.duplicated(subset="dup_clmns")
# will show duplicate rows based on the columns you choose