Pandas 替换重复项（转换为csv、hdf5或sql）？_Pandas_Sqlite_Hdfs

Pandas 替换重复项（转换为csv、hdf5或sql）？

pandas sqlite

Pandas 替换重复项（转换为csv、hdf5或sql）？,pandas,sqlite,hdfs,Pandas,Sqlite,Hdfs,我用熊猫来处理信息。当前的工作流程是从hdf5文件中读取最近30天的数据，然后向其中添加最新数据并执行一些分析然后，我需要将这些数据追加回原始hdf5文件（其中有一列指示同一客户ID是否多次出现）。唯一的问题是有重复的。我唯一的解决办法是将整个文件读入内存，删除副本，然后重新写入文件（完全替换）。有没有办法避免附加重复数据？比如我可以在pandas中使用的“插入并替换”命令 querydate = dt.date.today() - Timedelta(30, unit='d') df = p

我用熊猫来处理信息。当前的工作流程是从hdf5文件中读取最近30天的数据，然后向其中添加最新数据并执行一些分析

然后，我需要将这些数据追加回原始hdf5文件（其中有一列指示同一客户ID是否多次出现）。唯一的问题是有重复的。我唯一的解决办法是将整个文件读入内存，删除副本，然后重新写入文件（完全替换）。有没有办法避免附加重复数据？比如我可以在pandas中使用的“插入并替换”命令

querydate = dt.date.today() - Timedelta(30, unit='d')
df = pd.read_hdf(loc+hdfname, 'Raw', where = [('Report_Date > querydate')])
df2 = pd.read_csv(loc+yesterdayfile.csv)
combine = [df,df2]
df3 = pd.concat(combine)

我需要看看（昨天）的最新数据之前是否存在（在30天的滚动窗口内）。下面您可以看到，我将最新的数据附加到原始文件中，然后将该文件读入内存，删除副本，然后再次写入（覆盖现有文件）

hdf = HDFStore(loc+hdfname)
hdf.put('Raw', df3, format= 'table', complib= 'blosc', complevel=5, data_columns = True, append = True)

df = pd.read_hdf(loc+hdfname, 'Raw')
df.drop_duplicates(subset = ['Emp_ID', 'Interaction_Time', 'Customer_ID'], take_last = True, inplace = True)

hdf = HDFStore(loc+hdfname)
hdf.put('Raw', df, format= 'table', complib= 'blosc', complevel=5, data_columns = True, append = False)