Python Regex-Target<;td>;包含日期格式-获取该格式中的所有内容<;td>;

Python Regex-Target<;td>;包含日期格式-获取该格式中的所有内容<;td>;,python,regex,Python,Regex,例如,我有一个包含标记的网页 <td>Aug 17, 2017 02:00 PM EDT</td> 因此,在python代码中: date = re.findall(r'(?=\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*)(?=\<\/td)', page) print(date[0]) 而我需要 Aug 17, 2017 02:00 PM EDT 但是我不知道如何扩展正则表达式来获取所有的td。谢谢你的帮助

例如,我有一个包含
标记的网页

<td>Aug 17, 2017 02:00 PM EDT</td>
因此,在python代码中:

date = re.findall(r'(?=\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*)(?=\<\/td)', page)
print(date[0])
而我需要

Aug 17, 2017 02:00 PM EDT
但是我不知道如何扩展正则表达式来获取所有的td。谢谢你的帮助

(顺便说一句,Python 3)

编辑添加解码


td
标签之间放置一个正则表达式组,以匹配2017年8月17日美国东部夏令时下午2:00时的

import re
s = "<td>Aug 17, 2017 02:00 PM EDT</td>"
new_s = re.findall('<td>([a-zA-Z]+\s\d+,\s\d{4}\s[0-9\:]+\s[a-zA-Z\s]+)</td>', s)[0]

td
标签之间放置一个正则表达式组,以匹配2017年8月17日美国东部夏令时下午2:00时的

import re
s = "<td>Aug 17, 2017 02:00 PM EDT</td>"
new_s = re.findall('<td>([a-zA-Z]+\s\d+,\s\d{4}\s[0-9\:]+\s[a-zA-Z\s]+)</td>', s)[0]

您忘了在第一个逗号之前获取所有内容

<td>(?=.*\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*)(?=\<\/td)

(?=.*\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*)(?=\您忘了在第一个逗号之前获取所有内容

<td>(?=.*\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*)(?=\<\/td)

(?=.*\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*(?=\n不是真的复制品,但你会想读这个:不是真的复制品,但你会想读这个:太好了,谢谢你,非常直截了当,工作非常完美!对于像
这样的事情,我不必逃避
@Kenny很乐意帮忙!你是对的,
不需要逃避。太好了谢谢你,非常直截了当,效果非常好!对于
这样的事情,我不需要逃逸
@Kenny很高兴能帮忙!你说得对,
不需要逃逸。
'Aug 17, 2017 02:00 PM EDT'
<td>(?=.*\,\s\d{4}\s\d{2}\:\d{2}\s[A-Z]{2}\s[A-Z]{3})(.*)(?=\<\/td)