Pandas 替换重复项(转换为csv、hdf5或sql)?

Pandas 替换重复项(转换为csv、hdf5或sql)?,pandas,sqlite,hdfs,Pandas,Sqlite,Hdfs,我用熊猫来处理信息。当前的工作流程是从hdf5文件中读取最近30天的数据,然后向其中添加最新数据并执行一些分析 然后,我需要将这些数据追加回原始hdf5文件(其中有一列指示同一客户ID是否多次出现)。唯一的问题是有重复的。我唯一的解决办法是将整个文件读入内存,删除副本,然后重新写入文件(完全替换)。有没有办法避免附加重复数据?比如我可以在pandas中使用的“插入并替换”命令 querydate = dt.date.today() - Timedelta(30, unit='d') df = p

我用熊猫来处理信息。当前的工作流程是从hdf5文件中读取最近30天的数据,然后向其中添加最新数据并执行一些分析

然后,我需要将这些数据追加回原始hdf5文件(其中有一列指示同一客户ID是否多次出现)。唯一的问题是有重复的。我唯一的解决办法是将整个文件读入内存,删除副本,然后重新写入文件(完全替换)。有没有办法避免附加重复数据?比如我可以在pandas中使用的“插入并替换”命令

querydate = dt.date.today() - Timedelta(30, unit='d')
df = pd.read_hdf(loc+hdfname, 'Raw', where = [('Report_Date > querydate')])
df2 = pd.read_csv(loc+yesterdayfile.csv)
combine = [df,df2]
df3 = pd.concat(combine)
我需要看看(昨天)的最新数据之前是否存在(在30天的滚动窗口内)。下面您可以看到,我将最新的数据附加到原始文件中,然后将该文件读入内存,删除副本,然后再次写入(覆盖现有文件)

hdf = HDFStore(loc+hdfname)
hdf.put('Raw', df3, format= 'table', complib= 'blosc', complevel=5, data_columns = True, append = True)

df = pd.read_hdf(loc+hdfname, 'Raw')
df.drop_duplicates(subset = ['Emp_ID', 'Interaction_Time', 'Customer_ID'], take_last = True, inplace = True)

hdf = HDFStore(loc+hdfname)
hdf.put('Raw', df, format= 'table', complib= 'blosc', complevel=5, data_columns = True, append = False)