在python中从文本中提取多个日期
我有一个像这样的数据框在python中从文本中提取多个日期,python,regex,Python,Regex,我有一个像这样的数据框 Unit ID Shipping to: 90 With x 91 With y 92 With z 116 Shipped to x 01/04/16. / Shipped to y - 09/08/18. 233 Shipped to z 03/01/17 265 Shipped to x 03/01/17 returned shipped to x 02/05/17 280
Unit ID Shipping to:
90 With x
91 With y
92 With z
116 Shipped to x 01/04/16. / Shipped to y - 09/08/18.
233 Shipped to z 03/01/17
265 Shipped to x 03/01/17 returned shipped to x 02/05/17
280 Shipped to x 06/01/17 Shipped to y 03/05/17 Shipped to z 12/12/17
我想能够提取所有发生的x,y或z和日期,它后面的,如果有一个。我无法确定z、y或z将出现多少次,但我希望最终结果如下所示:
Unit ID Occurrence 1 Occurrence 2 Occurrence 3 Shipping to:
90 x With x
91 y With y
92 z With z
116 x 01/04/16 y 09/08/18 Shipped to x 01/04/16. / Shipped to y - 09/08/18.
233 z 03/01/17 Shipped to z 03/01/17
265 x 03/01/17 Shipped to x 03/01/17 returned shipped to x 02/05/17
280 x 06/01/17 y 03/05/17 z 12/12/17 Shipped to x 06/01/17 Shipped to y 03/05/17 Shipped to z 12/12/17
到目前为止,我只使用这个函数提取了每一列中出现的第一个日期
date_col = []
for row in df['Shipping to:']:
match = re.search('\d{2}/\d{2}/\d{2}',str(row),re.IGNORECASE)
date_col.append(match)
df['dates'] = date_col
数据帧本身有一个非常好的功能:
df['Shipping to:'].str.extractall(r'(\d{1,2}/\d{1,2}/\d{2})').unstack()
请注意,我将您的正则表达式更改为包含一个组(带有()
),并且我还匹配了月份和日期的个位数
测试以下数据帧(我知道这是胡说八道,但这只是一个测试):
我得到这个输出:
match 0 1
0 1/22/33 NaN
1 2/33/44 NaN
2 22/4/55 NaN
5 22/5/66 11/22/33
要在开始处包括x/y/z,请将正则表达式更改为r'([xyz]\d{1,2}/\d{1,2}/\d{2})
。最后,如果要将这些匹配项作为新列添加到原始数据帧中,可以使用join
。然后,代码变为:
df.join(df['Shipping to:'].str.extractall(r'([xyz] \d{1,2}/\d{1,2}/\d{2})')\
.unstack()[0])
请注意,我在调用unstack
后得到了第0列-这有效地删除了1级多索引,并防止join
抱怨。现在,正是因为我很高兴地处理了这个问题,我添加了一些代码来修复列名,以便它们与您的示例相匹配:
df.join(df['Shipping to:'].str.extractall(r'([xyz] \d{1,2}/\d{1,2}/\d{2})')\
.unstack()[0]\
.rename(columns=lambda x: "Occurence " + str(x)))
看起来,我。E给出一些例子远远低于硬接线规范。允许哪些格式变体,最多出现多少次,日期顺序(m/d/y)是什么,等等。因此,大多数工作与Python无关,但需要细化规范。@guidot似乎很清楚,匹配其日期的正则表达式是
\d{2}/\d{2}/\d{2}
,我想说这是非常具体的。@rje:那么,d{2}/\d{2}是哪一个呢{2} 你猜与月份相关吗?拒绝或不识别非法的日期和月份不是很好吗?@guidot我想这不是regex的任务。使用regex查找候选日期,然后使用解析器过滤非法的日期和月份。
df.join(df['Shipping to:'].str.extractall(r'([xyz] \d{1,2}/\d{1,2}/\d{2})')\
.unstack()[0]\
.rename(columns=lambda x: "Occurence " + str(x)))