是否有方法根据pandas中的唯一值对列进行排序?
假设我有一个包含日期和ID列的数据框。这是一个时间序列数据集。所以我需要为这个数据帧生成一个时间序列标识符。也就是说,我需要添加一个对应于每个唯一集的值。有办法做到这一点吗是否有方法根据pandas中的唯一值对列进行排序?,pandas,dataframe,pandas-groupby,unique,Pandas,Dataframe,Pandas Groupby,Unique,假设我有一个包含日期和ID列的数据框。这是一个时间序列数据集。所以我需要为这个数据帧生成一个时间序列标识符。也就是说,我需要添加一个对应于每个唯一集的值。有办法做到这一点吗 df = pd.DataFrame({'Date':[2012-01-01, 2012-01-01, 2012-01-01, 2012-01-02, 2012-01-02, 2012-01-03, 2012-01-03, 2012-01-03, 2012-01-04, 2012-01-01, 2012-01-04],
df = pd.DataFrame({'Date':[2012-01-01, 2012-01-01, 2012-01-01, 2012-01-02, 2012-01-02, 2012-01-03, 2012-01-03, 2012-01-03, 2012-01-04, 2012-01-01, 2012-01-04],
'Id':[1,2,3,4,5,6,7,8,9,10,11]})
print(df)
输出:
Date Id
2012-01-01 1
2012-01-01 2
2012-01-01 3
2012-01-02 4
2012-01-02 5
2012-01-03 6
2012-01-03 7
2012-01-03 8
2012-01-04 9
2012-01-01 10
2012-01-04 11
我需要根据它的独特性来订购日期,比如
Date Id TimeID
2012-01-01 1 0
2012-01-02 4 0
2012-01-03 6 0
2012-01-04 9 0
2012-01-01 2 1
2012-01-02 5 1
2012-01-03 7 1
2012-01-04 11 1
2012-01-01 3 2
2012-01-03 8 2
2012-01-01 10 3
用于:
首先,使用
pd.to\u datetime()
将字符串日期转换为日期时间。
然后,按照以下步骤使用groupby()
和.cumcount()
:
这回答了你的问题吗?顺便说一下,您是对行排序,而不是对列排序。(好的,这些是“日期”列中的行。但它算作排序行)
df['TimeID'] = df.groupby('Date').cumcount()
df = df.sort_values('TimeID')
print (df)
Date Id TimeID
0 2012-01-01 1 0
3 2012-01-02 4 0
5 2012-01-03 6 0
8 2012-01-04 9 0
1 2012-01-01 2 1
4 2012-01-02 5 1
6 2012-01-03 7 1
10 2012-01-04 11 1
2 2012-01-01 3 2
7 2012-01-03 8 2
9 2012-01-01 10 3
import pandas as pd
df = pd.DataFrame({'Date': ['2012-01-01','2012-01-01','2012-01-01','2012-01-02',
'2012-01-02','2012-01-03','2012-01-03','2012-01-03','2012-01-04','2012-01-01','2012-01-04'],
'Id': [1,2,3,4,5,6,7,8,9,10,11]})
# strictly, you can read in a datetime as a datetime at pd.read_csv() time
df['Date'] = pd.to_datetime(df['Date'])