Python 日期和时间列的简单索引
我有一个包含如下数据的CSV:Python 日期和时间列的简单索引,python,pandas,numpy,dataframe,Python,Pandas,Numpy,Dataframe,我有一个包含如下数据的CSV: <DATE> <TIME> <OPEN> <LOW> <HIGH> <CLOSE> 2001-01-03 00:00:00 0.9507 0.9505 0.9509 0.9506 .... 2015-05-13 02:00:00 0.9496 0.9495 0.9509 0.9505 我确定设置新值的正确方法(当我计算滚动平均值时)是:
<DATE> <TIME> <OPEN> <LOW> <HIGH> <CLOSE>
2001-01-03 00:00:00 0.9507 0.9505 0.9509 0.9506
....
2015-05-13 02:00:00 0.9496 0.9495 0.9509 0.9505
我确定设置新值的正确方法(当我计算滚动平均值时)是:
因为我的索引当前刚好是最新的,所以引用特定行(例如,第一行)的索引意味着设置了许多值,而不是一个值更新:
In [170]: df = pd.read_csv('/path/to/file.csv', parse_dates={'TIMESTAMP': ['DATE','TIME']}).set_index('TIMESTAMP')
In [171]: df
Out[171]:
OPEN LOW HIGH CLOSE
TIMESTAMP
2001-01-03 00:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 01:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 02:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 03:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 04:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-04 00:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-04 01:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-04 02:00:00 0.9507 0.9505 0.9509 0.9506
In [172]: df.index.dtype
Out[172]: dtype('<M8[ns]')
但是,你并不真的需要它,因为它是多余的-你仍然有你的数据在索引中,可以使用它
更新:从Pandas 0.20.1开始 对不起,我应该澄清一下,每个日期值都有多行,即2015-01-01 00:00和2015-01-01 01:00。所以,如果我索引日期,如果我引用一个日期,我就有多行。如果这有道理的话?@cardycakes,你的目标不清楚。。。您可以将日期和时间解析为单个时间戳(数据类型:
datetime
)列,并将其设置为索引。你能解释一下你想用你的DF做什么吗?这是有道理的。但是,由于数据是CSV格式的,您是说我应该将两列解析为一列,然后在创建DF后设置索引吗?谢谢MaxU,这太完美了
df.set_value('index', 'column', value)
In [170]: df = pd.read_csv('/path/to/file.csv', parse_dates={'TIMESTAMP': ['DATE','TIME']}).set_index('TIMESTAMP')
In [171]: df
Out[171]:
OPEN LOW HIGH CLOSE
TIMESTAMP
2001-01-03 00:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 01:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 02:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 03:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-03 04:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-04 00:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-04 01:00:00 0.9507 0.9505 0.9509 0.9506
2001-01-04 02:00:00 0.9507 0.9505 0.9509 0.9506
In [172]: df.index.dtype
Out[172]: dtype('<M8[ns]')
In [155]: df
Out[155]:
a b c
0 0 0 3
1 1 2 0
2 2 2 3
3 1 0 0
4 1 3 2
5 4 0 1
6 2 0 3
7 2 1 2
8 3 3 4
9 0 0 3
In [156]: df.join(df.iloc[:, :2], rsuffix='_idx').set_index((df.iloc[:, :2].columns + '_idx').tolist())
Out[156]:
a b c
a_idx b_idx
0 0 0 0 3
1 2 1 2 0
2 2 2 2 3
1 0 1 0 0
3 1 3 2
4 0 4 0 1
2 0 2 0 3
1 2 1 2
3 3 3 3 4
0 0 0 0 3