Python 从字符串中提取日期并保存在新的DataFrame列中
背景:Python 从字符串中提取日期并保存在新的DataFrame列中,python,pandas,dataframe,timestamp,Python,Pandas,Dataframe,Timestamp,背景: 我有一个熊猫数据框,其中包含一个tweet和weather列。数据帧列的当前状态如下- 目标:我试图从天气列中提取日期戳(例如行索引0的日期戳为“(2020-07-14)”),并将其保存在新的日期列中,以便对其进行过滤,例如过滤到最新日期 我知道如何将列字符串值更改为日期戳,如果它类似于“20140512”。但是,我不知道如何识别当前格式的日期戳,并将其提取到新列中 如果您有任何建议,我们将不胜感激您可以这样做,假设它在天气专栏中,并且始终具有相同的格式: df['date'] = pd
我有一个熊猫数据框,其中包含一个
tweet
和weather
列。数据帧列的当前状态如下-目标:
我试图从
天气
列中提取日期戳(例如行索引0的日期戳
为“(2020-07-14)”),并将其保存在新的日期
列中,以便对其进行过滤,例如过滤到最新日期
我知道如何将列字符串值更改为日期戳
,如果它类似于“20140512”。但是,我不知道如何识别当前格式的日期戳
,并将其提取到新列中
如果您有任何建议,我们将不胜感激您可以这样做,假设它在天气专栏中,并且始终具有相同的格式:
df['date'] = pd.to_datetime(df['weather'].str.extract('\((\d{4}-\d{2}-\d{2})\)')[0])
或
它是否总是以(YYYY-MM-DD)格式出现在天气栏中?嗨,德里克-是的,格式保持一致。
import re
df['date'] = pd.to_datetime(df['weather'].apply(lambda x: re.search('\((\d{4}-\d{2}-\d{2})\)', x).group(1)))