Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/296.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将具有unix时间戳(以毫秒为单位)的行转换为datetime_Python_Pandas_Datetime - Fatal编程技术网

Python 将具有unix时间戳(以毫秒为单位)的行转换为datetime

Python 将具有unix时间戳(以毫秒为单位)的行转换为datetime,python,pandas,datetime,Python,Pandas,Datetime,我需要处理大量的CSV文件,其中时间戳始终是以毫秒为单位表示unix时间戳的字符串。我还没有找到一种方法来有效地修改这些列 这就是我想到的,但是这当然只复制了列,我必须以某种方式将它放回原始数据集。我确信在创建数据帧时可以完成此操作 import sys if sys.version_info[0] < 3: from StringIO import StringIO else: from io import StringIO import pandas as pd da

我需要处理大量的CSV文件,其中时间戳始终是以毫秒为单位表示unix时间戳的字符串。我还没有找到一种方法来有效地修改这些列

这就是我想到的,但是这当然只复制了列,我必须以某种方式将它放回原始数据集。我确信在创建
数据帧时可以完成此操作

import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO
import pandas as pd

data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'

df = pd.read_csv(StringIO(data))

convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)
进入这个

0   2015-11-10 14:05:02.320
1   2015-11-10 14:05:02.364
2   2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

但是,我想使用类似于
pd.apply()
的方法来获取转换后的列返回的整个数据集,或者像我已经写的那样,在从CSV生成数据帧时只需创建日期时间。

我想我想出了一个解决方案:

convert = lambda x: datetime.datetime.fromtimestamp(float(x) / 1e3)

df = pd.read_csv(StringIO(data), parse_dates=['UNIXTIME'], date_parser=convert)

但我仍然不确定这是否是最好的。

您可以使用并传递arg
unit='ms'作为后处理步骤:

In [5]:
df['UNIXTIME'] = pd.to_datetime(df['UNIXTIME'], unit='ms')
df

Out[5]:
   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

我使用@EdChum解决方案,但我添加了时区管理:

df['UNIXTIME']=pd.DatetimeIndex(pd.to_datetime(pd['UNIXTIME'], unit='ms'))\
                 .tz_localize('UTC' )\
                 .tz_convert('America/New_York')
tz_localize
表示时间戳应视为与“UTC”有关,然后
tz_convert
实际将日期/时间移动到正确的时区(在本例中为“美国/纽约”)

请注意,它已转换为
DatetimeIndex
,因为
tz
方法仅对序列的索引有效。由于熊猫0.15,因此可以使用
.dt

df['UNIXTIME']=pd.to_datetime(df['UNIXTIME'], unit='ms')\
                 .dt.tz_localize('UTC' )\
                 .dt.tz_convert('America/New_York')

如果您知道时间戳单位,请使用
Series.astype

df['UNIXTIME'].astype('datetime64[ms]')

0   2015-11-10 13:05:02.320
1   2015-11-10 13:05:02.364
2   2015-11-10 13:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]
要返回整个数据帧,请使用

df.astype({'UNIXTIME': 'datetime64[ms]'})

   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

啊,我完全错过了
单元
参数,谢谢,这是一个很好的参数!我将提出一个拉式请求,将其包含在
中。通过解析日期也读取\u csv
。这可能会因为时区问题而导致错误的时间。@PengjuZhao OP的问题没有提到时区,因为Teudimundo的答案解决了一个问题,建议您可以尝试将Teudimundo的答案添加到您的答案中。这对像我这样的新手很有用。@PengjuZhao吞并其他用户的答案是不好的做法,我不这样做,但有些人这样做。我认为多个答案是可以的,只要它们是不同的。这种方法最适合yahoo时间戳转换。第二种方法不是第一种。同意,第二种方法在管理时区方面做得很好-就是得到跨越日期的开始时间和结束时间的结果,并解决这个问题(“美国/芝加哥”);注意语法,出现意外的行尾错误。每个datetime都包含一个'-05:00'附录,指示时区之间的小时差。排除它的最佳方式是什么?您看到的panda如何表示值,列内部使用datetime类型。如果您希望使用您喜欢的格式来表示日期时间的字符串,可以使用
df['UNIXTIME'].dt.strftime(…)
(),请注意,结果是一系列字符串值。如果将其分配给同一列:
df['UNIXTIME']=df['UNIXTIME'].dt.strftime(…)
您将无法再将该列中的值用作日期时间,因为它们将是字符串。
df.astype({'UNIXTIME': 'datetime64[ms]'})

   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42