Python 将具有unix时间戳（以毫秒为单位）的行转换为datetime_Python_Pandas_Datetime

Python 将具有unix时间戳（以毫秒为单位）的行转换为datetime

python pandas datetime

Python 将具有unix时间戳（以毫秒为单位）的行转换为datetime,python,pandas,datetime,Python,Pandas,Datetime,我需要处理大量的CSV文件，其中时间戳始终是以毫秒为单位表示unix时间戳的字符串。我还没有找到一种方法来有效地修改这些列这就是我想到的，但是这当然只复制了列，我必须以某种方式将它放回原始数据集。我确信在创建数据帧时可以完成此操作 import sys if sys.version_info[0] < 3: from StringIO import StringIO else: from io import StringIO import pandas as pd da

我需要处理大量的CSV文件，其中时间戳始终是以毫秒为单位表示unix时间戳的字符串。我还没有找到一种方法来有效地修改这些列

这就是我想到的，但是这当然只复制了列，我必须以某种方式将它放回原始数据集。我确信在创建

数据帧时可以完成此操作
import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO
import pandas as pd

data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'

df = pd.read_csv(StringIO(data))

convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)

进入这个
0   2015-11-10 14:05:02.320
1   2015-11-10 14:05:02.364
2   2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

但是，我想使用类似于pd.apply（）
的方法来获取转换后的列返回的整个数据集，或者像我已经写的那样，在从CSV生成数据帧时只需创建日期时间。
我想我想出了一个解决方案：
convert = lambda x: datetime.datetime.fromtimestamp(float(x) / 1e3)

df = pd.read_csv(StringIO(data), parse_dates=['UNIXTIME'], date_parser=convert)

但我仍然不确定这是否是最好的。
您可以使用并传递argunit='ms'作为后处理步骤：
In [5]:
df['UNIXTIME'] = pd.to_datetime(df['UNIXTIME'], unit='ms')
df

Out[5]:
   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

我使用@EdChum解决方案，但我添加了时区管理：
df['UNIXTIME']=pd.DatetimeIndex(pd.to_datetime(pd['UNIXTIME'], unit='ms'))\
                 .tz_localize('UTC' )\
                 .tz_convert('America/New_York')

tz_localize
表示时间戳应视为与“UTC”有关，然后tz_convert
实际将日期/时间移动到正确的时区（在本例中为“美国/纽约”）
请注意，它已转换为DatetimeIndex
，因为tz
方法仅对序列的索引有效。由于熊猫0.15，因此可以使用.dt
：
df['UNIXTIME']=pd.to_datetime(df['UNIXTIME'], unit='ms')\
                 .dt.tz_localize('UTC' )\
                 .dt.tz_convert('America/New_York')

如果您知道时间戳单位，请使用Series.astype
：
df['UNIXTIME'].astype('datetime64[ms]')

0   2015-11-10 13:05:02.320
1   2015-11-10 13:05:02.364
2   2015-11-10 13:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

要返回整个数据帧，请使用
df.astype({'UNIXTIME': 'datetime64[ms]'})

   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

啊，我完全错过了单元
参数，谢谢，这是一个很好的参数！我将提出一个拉式请求，将其包含在中。通过解析日期也读取\u csv
。这可能会因为时区问题而导致错误的时间。@PengjuZhao OP的问题没有提到时区，因为Teudimundo的答案解决了一个问题，建议您可以尝试将Teudimundo的答案添加到您的答案中。这对像我这样的新手很有用。@PengjuZhao吞并其他用户的答案是不好的做法，我不这样做，但有些人这样做。我认为多个答案是可以的，只要它们是不同的。这种方法最适合yahoo时间戳转换。第二种方法不是第一种。同意，第二种方法在管理时区方面做得很好-就是得到跨越日期的开始时间和结束时间的结果，并解决这个问题（“美国/芝加哥”）；注意语法，出现意外的行尾错误。每个datetime都包含一个'-05:00'附录，指示时区之间的小时差。排除它的最佳方式是什么？您看到的panda如何表示值，列内部使用datetime类型。如果您希望使用您喜欢的格式来表示日期时间的字符串，可以使用df['UNIXTIME'].dt.strftime（…）
（），请注意，结果是一系列字符串值。如果将其分配给同一列：df['UNIXTIME']=df['UNIXTIME'].dt.strftime（…）您将无法再将该列中的值用作日期时间，因为它们将是字符串。
df.astype({'UNIXTIME': 'datetime64[ms]'})

   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42