Python：如果B列中的另一个值重复自身，我如何更改a列中的一个值？_Python_Pandas_Dataframe_Series_Glob

Python：如果B列中的另一个值重复自身，我如何更改a列中的一个值？

python pandas dataframe

Python：如果B列中的另一个值重复自身，我如何更改a列中的一个值？,python,pandas,dataframe,series,glob,Python,Pandas,Dataframe,Series,Glob,我在一个文件夹中有许多列相同的excel文件。我需要浏览每个文件并比较一个文件的“用户编号”列的哪些值与另一个文件的相同。然后在此基础上操作另一个名为“Date”的列。例如： A2018_02_01 file has: User_Number Date 18732A 2017-06-22 27192B 2017-08-06 23872Z 2017-08-06 82716A

我在一个文件夹中有许多列相同的excel文件。我需要浏览每个文件并比较一个文件的“用户编号”列的哪些值与另一个文件的相同。然后在此基础上操作另一个名为“Date”的列。例如：

A2018_02_01 file has:          

User_Number    Date            
18732A         2017-06-22
27192B         2017-08-06    
23872Z         2017-08-06    
82716A         2017-09-18      
77629B         2017-09-12      

A2018_02_02 file has:

User_Number    Date
18732A        2017-06-22
27192B        2017-08-06
54321R         2017-12-11
23872Z        2017-11-04
18732A        2017-06-25

因此，在本例中，我希望程序检查用户编号值的匹配情况，然后，如果一个文件的日期（链接到此编号）与另一个文件的日期不同，我希望将两个日期都更改为最早的日期

在这种情况下，我会：

A2018_02_01 file has:          

User_Number    Date            
18732A         2017-06-22      
27192B         2017-08-06      
23872Z         2017-08-06      
82716A         2017-09-18      
77629B         2017-09-12      

A2018_02_02 file has:

User_Number    Date
18732A         2017-06-22
27192B         2017-08-06
54321R         2017-12-11
23872Z         2017-08-06
18732A         2017-06-22

我附加了所有文件：

import os
import glob
import pandas as pd

path=r'C/.../files'
files = os.listdir(path)
df = pd.DataFrame()

for f in glob.glob(path + "/*.xlsx"):
    data = pd.read_excel(f,header=2)
    df=df.append(data)
    df["Date"]=pd.to_datetime(df["Date"], errors='coerce')

该逻辑不像javascript逻辑那样工作，所以我不确定如何实现该条件。我试过：

df_number = df["User Number"]
for number in df[df_number.duplicated()]:
    number.df["Date"]number.df["Date"].min()

和其他方法，但没有任何效果。非常感谢您的帮助。

我的解决方案是创建一个包含所有最小日期的主映射器：

master=pd.concat([df1, df2]).groupby('User_Number').min()

然后将每个数据帧连接到主数据帧以查找调整后的日期：

df1.join(master,rsuffix='_adj',on='User_Number')[['User_Number', 'Date_adj']])
df2.join(master,rsuffix='_adj',on='User_Number')[['User_Number', 'Date_adj']])

输出：

    User_Number    Date_adj
0      18732A  2017-06-22
1      27192B  2017-08-06
2      23872Z  2017-08-06
3      82716A  2017-09-18
4      77629B  2017-09-12

   User_Number    Date_adj
0      18732A  2017-06-22
1      27192B  2017-08-06
2      54321R  2017-12-11
3      23872Z  2017-08-06
4      18732A  2017-06-22

使其适应您的代码：

list_of_df = []
for f in glob.glob(path + "/*.xlsx"):
    data = pd.read_excel(f,header=2)
    list_of_df.append(data)

df = pd.concat(list_of_df)
df["Date"]=pd.to_datetime(df["Date"], errors='coerce')
master=df.groupby('User_Number').min()

for aux_df in list_of_df:
   aux_df['Date'] = aux_df.join(master,rsuffix='_adj',on='User_Number')[['Date_adj']])

你确定你的代码是完整的吗？没有“=”的最后一行代码看起来像是胡说八道。它还没有完成，我仍在试图理解逻辑。我不知道如何根据number的值更改日期（同时比较两个日期，看哪一个是最早的）。我这样做了：）只是另一个问题：在本例中，您比较了两个数据帧。对于未知数量的数据帧，我如何才能做到这一点？我有一个包含x个数据帧的文件。当你说我比较时，我猜你指的是两个数据帧的串联。如果您有一个数据帧列表，

pd.concat（list_of_df）

将从您的所有df

为glob.glob中的f创建一个：data=pd.read_excel（f，header=2）df=df.concat（data.groupby（'User_Number'）.min（）数据。加入（master，rsuffix='u adj'，on='User_Number'）[['User_Number'，'Date adj']），但当我调用数据时，我得到一个错误，说数据没有定义。我更新了我的答案，以更好地符合您的原始代码。哦，好的，我知道了。谢谢（：