时区原始列上的唯一(和其他numpy函数)将转换为本地时区

时区原始列上的唯一(和其他numpy函数)将转换为本地时区,numpy,pandas,timezone,Numpy,Pandas,Timezone,我不太清楚这是numpy bug还是pandas bug还是我的用户错误。 谁能澄清一下。。。 我的工作是使用字符串来实现唯一性,但我经常遇到这些问题…建议的工作实践是否值得,例如始终设置UTC 所以我希望unique返回一个天真的datetime,而不是解释为本地的 import pandas as pd d=pd.DataFrame({'a':['2014-10-12','2014-10-11']}) d['b']=pd.to_datetime(d.a) print d print d['b

我不太清楚这是numpy bug还是pandas bug还是我的用户错误。 谁能澄清一下。。。 我的工作是使用字符串来实现唯一性,但我经常遇到这些问题…建议的工作实践是否值得,例如始终设置UTC

所以我希望unique返回一个天真的datetime,而不是解释为本地的

import pandas as pd
d=pd.DataFrame({'a':['2014-10-12','2014-10-11']})
d['b']=pd.to_datetime(d.a)
print d
print d['b'].unique()
print d['b'].max()
print d['b'].values.max()

        a          b
0  2014-10-12 2014-10-12
1  2014-10-11 2014-10-11

['2014-10-12T02:00:00.000000000+0200' '2014-10-11T02:00:00.000000000+0200'] #unique

2014-10-12 00:00:00 # pandas max

2014-10-12T02:00:00.000000000+0200  #numpy max
numpy“1.9.2”
pandas'0.16.1'

它们都是相同的日期/时间,但函数返回的类型不同,具有不同的字符串表示形式,即不同的str和repr输出

d['b'].unique和d['b'].values.max返回numpy.datetime64对象,而d['b'].max返回pandas.Timestamp对象。numpy.datetime64在作为字符串输出时使用系统的区域设置时区,而PANDES.Timestamp则不使用

如果将pandas.Timestamp转换为numpy.datetime64,您将看到它们是相同的值:

np.datetime64(d['b'].max().to_datetime()) == d['b'].values.max()

我接受你的回答,但我不同意你的“证据”。我的问题是一个时区原始对象是否正在转换为本地时区对象。