Python 重采样错误：无法使用方法或限制重新索引非唯一索引_Python_Python 2.7_Pandas_Group By_Resampling

Python 重采样错误：无法使用方法或限制重新索引非唯一索引

python python-2.7 pandas

Python 重采样错误：无法使用方法或限制重新索引非唯一索引,python,python-2.7,pandas,group-by,resampling,Python,Python 2.7,Pandas,Group By,Resampling,我使用熊猫来构造和处理数据我这里有一个数据帧，日期是索引、Id和比特率。我想按Id对数据进行分组，同时对与每个Id相关的时间日期进行重采样，最后保留比特率分数例如，假设： df = pd.DataFrame( {'Id' : ['CODI126640013.ts', 'CODI126622312.ts'], 'beginning_time':['2016-07-08 02:17:42', '2016-07-08 02:05:35'], 'end_time' :['2016-07-08 0

我使用熊猫来构造和处理数据

我这里有一个数据帧，日期是索引、Id和比特率。我想按Id对数据进行分组，同时对与每个Id相关的时间日期进行重采样，最后保留比特率分数

例如，假设：

df = pd.DataFrame(
{'Id' : ['CODI126640013.ts', 'CODI126622312.ts'],
'beginning_time':['2016-07-08 02:17:42', '2016-07-08 02:05:35'], 
'end_time' :['2016-07-08 02:17:55', '2016-07-08 02:26:11'],
'bitrate': ['3750000', '3750000'],
'type' : ['vod', 'catchup'],
'unique_id' : ['f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30', 'f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22']})

其中：

这是我的代码，用于获取日期的唯一列，每次Id和比特率为：

df = df.drop(['type', 'unique_id'], axis=1)
df.beginning_time = pd.to_datetime(df.beginning_time)
df.end_time = pd.to_datetime(df.end_time)
df = pd.melt(df, id_vars=['Id','bitrate'], value_name='dates').drop('variable', axis=1)
df.set_index('dates', inplace=True)

其中：

现在，是重新取样的时候了！这是我的代码：

print (df.groupby('Id').resample('1S').ffill())

这就是结果：

这正是我想做的！我有38279个相同列的日志，当我做同样的事情时，我会收到一条错误消息。第一部分工作完美，并给出了以下内容：

（df.groupby（'Id'）.resample（'1S'）.ffill（））部分给出了以下错误消息：

ValueError: cannot reindex a non-unique index with a method or limit

有什么想法吗？Thnx
似乎列
开始时间
和
结束时间
中的重复项存在问题，我尝试模拟它：

df = pd.DataFrame( {'Id' : ['CODI126640013.ts', 'CODI126622312.ts', 'a'], 'beginning_time':['2016-07-08 02:17:42', '2016-07-08 02:17:42', '2016-07-08 02:17:45'], 'end_time' :['2016-07-08 02:17:42', '2016-07-08 02:17:42', '2016-07-08 02:17:42'], 'bitrate': ['3750000', '3750000', '444'], 'type' : ['vod', 'catchup', 's'], 'unique_id':['f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30', 'f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22','w']}) print (df) Id beginning_time bitrate end_time \ 0 CODI126640013.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 1 CODI126622312.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 2 a 2016-07-08 02:17:45 444 2016-07-08 02:17:42 type unique_id 0 vod f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30 1 catchup f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22 2 s w
ValueError:无法使用方法或限制重新索引非唯一索引
一种可能的解决方案是添加旧的用于
重采样和groupby ： df = df.drop(['type', 'unique_id'], axis=1) df.beginning_time = pd.to_datetime(df.beginning_time) df.end_time = pd.to_datetime(df.end_time) df = pd.melt(df, id_vars=['Id','bitrate'], value_name='dates').drop('variable', axis=1) print (df.groupby('Id').apply(lambda x : x.drop_duplicates('dates') .set_index('dates') .resample('1S') .ffill())) Id bitrate Id dates CODI126622312.ts 2016-07-08 02:17:42 CODI126622312.ts 3750000 CODI126640013.ts 2016-07-08 02:17:42 CODI126640013.ts 3750000 a 2016-07-08 02:17:41 a 444 2016-07-08 02:17:42 a 444 2016-07-08 02:17:43 a 444 2016-07-08 02:17:44 a 444 2016-07-08 02:17:45 a 444 您还可以通过以下方式检查副本： df = df.drop(['type', 'unique_id'], axis=1) df.beginning_time = pd.to_datetime(df.beginning_time) df.end_time = pd.to_datetime(df.end_time) df = pd.melt(df, id_vars=['Id','bitrate'], value_name='dates').drop('variable', axis=1) print (df.groupby('Id').apply(lambda x : x.drop_duplicates('dates') .set_index('dates') .resample('1S') .ffill())) Id bitrate Id dates CODI126622312.ts 2016-07-08 02:17:42 CODI126622312.ts 3750000 CODI126640013.ts 2016-07-08 02:17:42 CODI126640013.ts 3750000 a 2016-07-08 02:17:41 a 444 2016-07-08 02:17:42 a 444 2016-07-08 02:17:43 a 444 2016-07-08 02:17:44 a 444 2016-07-08 02:17:45 a 444 print (df[df.beginning_time == df.end_time]) 2 s w Id beginning_time bitrate end_time \ 0 CODI126640013.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 1 CODI126622312.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 type unique_id 0 vod f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30 1 catchup f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22