Python 框架迭代:效率
我有两个独立的数据集 数据集1:已加载项及其加载时间的数据库。看起来像这样 数据集2:已卸载项及其卸载时间的数据库。它与上述数据集完全相似 hse_时间格式为“2016-01-07 19:38:56”,即“YYYY-mm-dd HH:mm:SS” 现在,我的练习是用相应的卸载时间、加载次数和卸载次数、当前状态[加载或卸载]标记每个加载的项目 数据集具有以下规则:Python 框架迭代:效率,python,pandas,Python,Pandas,我有两个独立的数据集 数据集1:已加载项及其加载时间的数据库。看起来像这样 数据集2:已卸载项及其卸载时间的数据库。它与上述数据集完全相似 hse_时间格式为“2016-01-07 19:38:56”,即“YYYY-mm-dd HH:mm:SS” 现在,我的练习是用相应的卸载时间、加载次数和卸载次数、当前状态[加载或卸载]标记每个加载的项目 数据集具有以下规则: 一个项目可以多次加载和卸载 由于这是针对特定的时间范围,我们可以在数据集中加载之前卸载项目[例如:我正在分析JFM'16数据,它可能
Loaded_Frame = Loaded_Frame.sort_values(by=["BranchID","hse_time"],ascending=True)
Unloaded_Frame = Unloaded_Frame.sort_values(by["BranchID","hse_time"],ascending=True)
Grouped = Loaded_Frame.groupby(["BranchID","Item Name"]).agg({"weight":"count"}).reset_index()
Grouped.rename(columns={"weight":"LoadedCount"},inplace=True)
temp_frame = Unloaded_Frame.groupby(["BranchID","Item Name"]).agg({"weight":"count"}).reset_index()
temp_frame.rename(columns={"weight":"UnLoadedCount"},inplace=True)
Grouped = Grouped.merge(temp_frame,on=["BranchID","Item Name"],how="outer")
Grouped["UnLoadedCount"] = Grouped["UnLoadedCount"].fillna(0)
Grouped["LoadedCount"] = Grouped["LoadedCount"].fillna(0)
主要逻辑
import numpy as np
Final_Frame=Loaded_Frame.copy()
Final_Frame["Multiple Loads"]=np.nan
Final_Frame["Number of times Loaded"]=np.nan
Final_Frame["Number of times UnLoaded"]=np.nan
Final_Frame["UnLoaded Date"]=np.nan
Final_Frame["Load Status"]=np.nan
for i in Grouped.index:
x=UnLoaded_Frame[(UnLoaded_Frame["BranchID"]==Grouped.loc[i,"BranchID"])\
& (UnLoaded_Frame["Item Name"]==Grouped.loc[i,"Item Name"])].reset_index()
y=Loaded_Frame[(Loaded_Frame["BranchID"]==Grouped.loc[i,"BranchID"]) \
& (Loaded_Frame["Item Name"]==Grouped.loc[i,"Item Name"])].reset_index()
Loaded_Count=y["BranchID"].count()
Unloaded-Count=x["BranchID"].count()
if Loaded_Count==Unloaded: #Condition where both are equal
Multiple_Load=False
if Loaded_Count>1:
Multiple_Load=True
else:
Multiple_Load=False
for j in y.index:
Final_Frame.loc[((Final_Frame["BranchID"]==y.loc[j,"BranchID"]) \
& (Final_Frame["Item Name"]==y.loc[j,"Item Name"]) \
& (Final_Frame["hse_time"]==y.loc[j,"hse_time"]))\
,["Multiple Loads","Number of times Loaded","Number of times UnLoaded","UnLoaded Date","Load Status"]]\
=[Multiple_Load,Loaded_Count,UnLoaded_Count,x.loc[j,"hse_time"],"Unloaded"]
问题是,当我运行此代码时,需要花费大量时间迭代400K条记录。@Merlin我已经添加了代码,谢谢!@Merlin当然!我已经做了更改:)还需要编辑缩进代码,以便readable@Merlin已经做了更改我想你需要看看。@Merlin我已经添加了代码,谢谢!@Merlin当然!我已经做了changes:)还可以编辑缩进的代码,以便readable@Merlin已经做出了改变,我想你需要看看。