Python 熊猫:计算分组在一起的类似列的平均值、var
尝试使用pandas对网络跟踪数据进行分析。我已读取转储文件并创建了以下Python 熊猫:计算分组在一起的类似列的平均值、var,python,pandas,ip,Python,Pandas,Ip,尝试使用pandas对网络跟踪数据进行分析。我已读取转储文件并创建了以下DataFrame: 因此,为了检测数据框中的单个流,我使用以下代码段,根据['ip_src'、'ip_dst'、'sport'、'ip_proto'、'service']对整个数据框进行分组: flow = ['ip_src', 'ip_dst', 'sport', 'dport', 'ip_proto', 'service'] grp1 = data2.groupby(flow, sort=False) 因此,当我对
DataFrame
:
因此,为了检测数据框中的单个流,我使用以下代码段,根据['ip_src'、'ip_dst'、'sport'、'ip_proto'、'service']
对整个数据框进行分组:
flow = ['ip_src', 'ip_dst', 'sport', 'dport', 'ip_proto', 'service']
grp1 = data2.groupby(flow, sort=False)
因此,当我对data2
的前二十行执行grp1.size()
时,我得到以下信息:
我现在想做的是计算ip_len
的平均值
,packet_len
,var
的ip_len
,packet_len
和包间到达时间的平均值
(使用属于同一流的包的时间戳
)
如何在pandas中实现这一点,以便我获得的数据帧包含每个流的统计信息,即列应包含ip_src
,ip_dst
,sport
,dport
,ip_proto
,service
,以及前面计算的平均值和var值。我尝试了aggr
和apply
两种方法,但都没有成功。提前谢谢
data2.groupby(['colName1','colName2']).mean()
应该做这项工作。这些答案有帮助吗?