在python中使用正则表达式剥离标记
如何从列表中删除标签:在python中使用正则表达式剥离标记,python,regex,web-scraping,Python,Regex,Web Scraping,如何从列表中删除标签: ['</span>A walk in the park<span class="html-tag"] ['A walk in the park您可以使用: (?:>)(.*)(?:<) (?:>)(*)(?:你与正则表达式的关系非常密切。在Lookback找到位置后,出于好奇,你只想读到下一个-你是如何首先获得该字符串的…?似乎你可能希望在某些处理过程中以不同的方式提取文本,而不是整理这些…@JonClements我只是创建上述内容是为了
['</span>A walk in the park<span class="html-tag"]
['A walk in the park您可以使用:
(?:>)(.*)(?:<)
(?:>)(*)(?:你与正则表达式的关系非常密切。在Lookback找到位置后,出于好奇,你只想读到下一个-你是如何首先获得该字符串的…?似乎你可能希望在某些处理过程中以不同的方式提取文本,而不是整理这些…@JonClements我只是创建上述内容是为了反映我在一项更复杂的任务中遇到的一些问题,这项任务可能很难解释。当然-看起来你只是想澄清一些可能避免的事情。我知道,嘿。这是uni任务的一部分,禁止使用除“re”模块以外的任何模块进行网页抓取。我觉得很傻
(?<=</span>)[^<]+
$ cat test.py
import re
s='</span>A walk in the park<span class="html-tag"'
print re.findall(r'(?<=</span>)[^<]+', s)
$ python test.py
['A walk in the park']