python两个csv文件
我试图比较两个csv文件。如果用户名与表1和表2的名称相同,我想比较相似性用户名创建表3打印 比如说python两个csv文件,python,pandas,csv,Python,Pandas,Csv,我试图比较两个csv文件。如果用户名与表1和表2的名称相同,我想比较相似性用户名创建表3打印 比如说 table1.csv id_Acco, user_name, post_time 1543603, SameDavie , "2020/09/06" 1543595, Johntim, "2020/09/11" 1558245, ACAtesdfgsf , "2020/0
table1.csv
id_Acco, user_name, post_time
1543603, SameDavie , "2020/09/06"
1543595, Johntim, "2020/09/11"
1558245, ACAtesdfgsf , "2020/09/19"
table2.csv
id_Acco, user_name, post_time
1543603, SameDavie, "2020/09/06"
1543595, Johntim , "2020/09/11"
1558245, Davidwillian, "2020/09/19"
输出
table3.csv
id_Acco, user_name, post_time
1543603, SameDavie , "2020/09/06"
1543595, Johntim , "2020/09/11"
代码
您可以
concat
A和B并检查replicated
记录:
z = pd.concat([A, B])[['user_name']]
z.loc[z.duplicated()].to_csv('table3.csv')
输出(在表3.csv
中):
另外,如果您的文件中有时像示例中那样有这些尾随空格,您可能希望在连接后去掉它们:
z = pd.concat([A, B])['user_name'].str.strip()
z.loc[z.duplicated()].to_frame().to_csv('table3.csv')
它回答了你的问题吗?行是否重要,或者您只是想要两个文件中出现的用户名列表?谢谢,还有另一个问题,在检查重复项后,我如何传递id_Acco和post_time?如果您没有为
z
指定列,那么它将使用所有这些,因此z=pd.concat([a,B])
作为第一行,然后是相同的z.loc[z.duplicated()]
(我假设您已经删除了这些空格——如果没有,您可以在连接后执行)
user_name
0 SameDavie
1 Johntim
z = pd.concat([A, B])['user_name'].str.strip()
z.loc[z.duplicated()].to_frame().to_csv('table3.csv')