Python 3.x 熊猫:如何使用开始和结束时间戳分析数据?

Python 3.x 熊猫:如何使用开始和结束时间戳分析数据?,python-3.x,pandas,matplotlib,plotly,data-science,Python 3.x,Pandas,Matplotlib,Plotly,Data Science,我必须分析在给定时间段内使用应用程序的用户的活动,时间段是开始和结束时间戳。我试过用柱状图,但我不知道如何在间隔中包括小时数。 例如:uid=2的用户在[18,19,20,21]使用应用程序 我的数据帧如下所示: uid sex start end 1 0 2000-01-28 16:47:00 2000-01-28 17:47:00 2 1 2000

我必须分析在给定时间段内使用应用程序的用户的活动,时间段是开始和结束时间戳。我试过用柱状图,但我不知道如何在间隔中包括小时数。 例如:uid=2的用户在[18,19,20,21]使用应用程序

我的数据帧如下所示:

uid           sex          start                 end
1             0       2000-01-28 16:47:00   2000-01-28 17:47:00
2             1       2000-01-28 18:07:00   2000-01-28 21:47:00
3             1       2000-01-28 18:47:00   2000-01-28 20:17:00
4             0       2000-01-28 08:00:00   2000-01-28 10:00:00
5             1       2000-01-28 02:05:00   2000-01-28 02:30:00
6             0       2000-01-28 15:10:00   2000-01-28 18:04:00
7             0       2000-01-28 01:50:00   2000-01-28 03:00:00


df['hour_s'] = pd.to_datetime(df['start']).apply(lambda x: x.hour)
df['hour_e'] = pd.to_datetime(df['end']).apply(lambda x: x.hour)

uid           sex          start                 end              hour_s      hour_e
1             0       2000-01-28 16:47:00   2000-01-28 17:47:00   16          17
2             1       2000-01-28 18:07:00   2000-01-28 21:47:00   18          21
3             1       2000-01-28 18:47:00   2000-01-28 20:17:00   18          20
4             0       2000-01-28 08:00:00   2000-01-28 10:00:00   08          10
5             1       2000-01-28 02:05:00   2000-01-28 02:30:00   02          02
6             0       2000-01-28 15:10:00   2000-01-28 18:04:00   15          18
7             0       2000-01-28 01:50:00   2000-01-28 03:00:00   01          03

我必须查找特定小时内的用户数

我不确定您是否在寻找甘特图。如果是这样的话,@Vinícius Aguiar的提示就在评论中

从你的最后一行

我必须在特定的时间内找到用户数

似乎你需要一个直方图,显示用户数量(频率)以一天中的小时为轴心。 如果是这种情况,您可以这样做:

#! /usr/bin/python3

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Read the data
df=pd.read_csv("data.csv")

# Get all hours per user (per observation)
def sum_hours(obs):
    return(list(range(obs['hour_s'],obs['hour_e']+1,1)))

# Get all existing activity hours (No matter which user)
Hours2D=list(df.apply(sum_hours,axis=1))
# Get all existing hours
HoursFlat=[hour for sublist in Hours2D for hour in sublist]

plt.hist(HoursFlat,rwidth=0.5,range=(0,24))
plt.xticks(np.arange(0,24, 1.0))
plt.xlabel('Hour of day')
plt.ylabel('Users')
plt.show()
其中data.csv是您提供的示例:

uid, sex,start,end,hour_s,hour_e
1,0,2000-01-28 16:47:00,2000-01-28 17:47:00,16,17
2,1,2000-01-28 18:07:00,2000-01-28 21:47:00,18,21
3,1,2000-01-28 18:47:00,2000-01-28 20:17:00,18,20
4,0,2000-01-28 08:00:00,2000-01-28 10:00:00,08,10
5,1,2000-01-28 02:05:00,2000-01-28 02:30:00,02,02
6,0,2000-01-28 15:10:00,2000-01-28 18:04:00,15,18
7,0,2000-01-28 01:50:00,2000-01-28 03:00:00,01,03
您应该得到以下图表:

给出了您想要的详细示例,请看一看,更好的是,您还可以获取Hours2D和HoursFlat变量并运行其他分析,而不仅仅是可视化。(离群值、按天时间聚类等)注意,这只是一个方向性示例,仅当您的观察值与示例数据集中的每个用户每天的观察值相同时才有效。