Python:在数据帧列中将秒转换为日期时间格式
目前我正在使用一个大数据帧(12x47800)。十二列中的一列是由整数秒组成的列。我想将此列更改为包含datetime.time格式的列。Schedule是我尝试更改名为“depTime”的列的数据帧。因为我希望它是一个datetime.time,并且它可以跨越午夜,所以我添加了if语句。这“有效”,但正如人们所能想象的那样,速度非常慢。有没有更快的方法? 我目前的代码,我唯一可以使用的代码是:Python:在数据帧列中将秒转换为日期时间格式,python,pandas,datetime,seconds,Python,Pandas,Datetime,Seconds,目前我正在使用一个大数据帧(12x47800)。十二列中的一列是由整数秒组成的列。我想将此列更改为包含datetime.time格式的列。Schedule是我尝试更改名为“depTime”的列的数据帧。因为我希望它是一个datetime.time,并且它可以跨越午夜,所以我添加了if语句。这“有效”,但正如人们所能想象的那样,速度非常慢。有没有更快的方法? 我目前的代码,我唯一可以使用的代码是: for i in range(len(schedule)): t_sec = schedul
for i in range(len(schedule)):
t_sec = schedule.iloc[i].depTime
[t_min, t_sec] = divmod(t_sec,60)
[t_hour,t_min] = divmod(t_min,60)
if t_hour>23:
t_hour -= 23
schedule['depTime'].iloc[i] = dt.time(int(t_hour),int(t_min),int(t_sec))
提前谢谢各位
Ps:我对Python非常陌生,如果有人能帮助我,我将非常感激:)我正在添加一个新的解决方案,它比原来的解决方案快得多,因为它依赖于pandas矢量化函数而不是循环(pandas apply函数本质上是对数据的优化循环) 我用一个和你的样品大小相似的样品测试了它,差异从778毫秒到21.3毫秒。所以我绝对推荐新版本 这两种解决方案都基于将秒整数转换为timedelta格式并将其添加到引用datetime。然后,我简单地捕获结果datetimes的时间组件 新(更快)选项: 原始(较慢)答案: 这不是最优雅的解决方案,但它确实做到了
import datetime as dt
seconds = pd.Series(np.random.rand(50)*100).astype(int) # Generating test data
start = dt.datetime(2019,1,1,0,0) # You need a reference point
time_series = seconds.apply(lambda x: start + pd.Timedelta(seconds=x)).dt.time
您不应该尝试对数据帧进行完全扫描,而是使用矢量化访问,因为它通常效率更高 幸运的是,pandas有一个函数可以完全满足您的要求,
to_timedelta
:
schedule['depTime'] = pd.to_timedelta(schedule['depTime'], unit='s')
它实际上不是一种日期时间格式,但它相当于datetime.timedelta
,是处理时间的一种方便类型。您可以使用来创建日期时间,但将以接近1970-01-01的完整日期时间结束
如果您确实需要datetime.time
对象,您可以通过以下方式获得它们:
schedule['depTime'] = pd.to_datetime(schedule['depTime'], unit='s').dt.time
但是在熊猫数据框中使用它们不太方便。您能提供一个简短的数据示例吗?例如,schedule.head(20)
你确定你的专栏记录的是一天中的时间而不是持续时间吗?有一点不同,一天的时间被限制在[0-86400)秒(86401表示闰秒),持续时间不受限制,可以是负数。蒙蒂在下午3点10分越过终点线,时间为2小时35分5秒,有一天的时间和持续时间。你想使用timedelta
表示持续时间,而不是time
。这似乎是一个合适的解决方案,我尝试了使用to_datetime。请参阅ms非常接近我想要实现的目标,但问题是我得到了一个datetime.datetime,然后我仍然需要将其转换为datetime.time格式。我尝试使用.time,但我得到的“Series”对象没有属性“time”。我理解。从这一点上说,有没有一种简单的方法将datetime.datetime转换为datetime.time?@Hestaron:time
属性在这里可以帮助您:查看我的编辑。如果有人在寻找性能方面的原因,用这种方式转换为timedelta肯定比转换为time对象要好。此解决方案似乎非常有效。因为我的代码需要实时运行(最终)时间是至关重要的,它运行得非常快。你能详细说明一下它是如何工作的以及为什么工作的吗?@Hestaron我提出了一个新的解决方案,似乎效果更好。建议你看看。astype('timedelta64[ms]'
)将数字转换为毫秒(无秒),然后添加任意历元,并使用.dt.time
从中提取时间对象。除了使用毫秒而不是秒外,它只比使用pd.to_datetime(秒,unit='s').dt.time
(586 us vs 714 us)稍微快一点。
schedule['depTime'] = pd.to_datetime(schedule['depTime'], unit='s').dt.time