Python 如何从元素中获取href title并删除所有字符串？_Python_Regex

Python 如何从元素中获取href title并删除所有字符串？

python regex

Python 如何从元素中获取href title并删除所有字符串？,python,regex,Python,Regex,我需要从一个网页的链接标题。链接可能看起来像 < a href="http://xxxx">Some text< /a> 成功处理第一种类型链接而不是第二种类型链接的代码。任何人都可以帮我删除所有？使用此模式和旗帜 re.IGNORECASE, re.I re.MULTILINE, re.M 请参阅此当然可以帮助您您需要正确地转义引号 >>> import re >>> s = """< a href="http://

我需要从一个网页的链接标题。链接可能看起来像

< a href="http://xxxx">Some text< /a>

成功处理第一种类型链接而不是第二种类型链接的代码。任何人都可以帮我删除所有

？

使用此模式和旗帜

re.IGNORECASE, re.I  
re.MULTILINE, re.M

请参阅此当然可以帮助您

您需要正确地转义引号

>>> import re
>>> s = """< a href="http://xxxx"><div> < image> < /image> < div> < /a>
... < a href="http://xxxx">Some text< /a>"""
>>> re.findall(r"< a\s*href=['\"]http.*?['\"][^<>]*>([^<>]*)<\s*/a>", s)
['Some text']

>>重新导入
>>>s=“”
…某些文本”
>>>re.findall（r“（[^]*）”，s）
[“一些文本”]

或

好像你要删除所有的标签

>>> s = '< a href="http://xxxx">Some text< /a>'
>>> re.sub(r'<[^<>]*>', r'', s)
'Some text'

>>s='

您的预期输出是什么？你想删除或检索吗？逻辑如何，

如果在
之后找到，然后忽略，但是code如果在/code>
之后找到其他内容，则获取字符，直到遇到字符@AvinashRaj，正如我提到的“我想要得到所有的some文本”，这是url的标题。但有时当我找到a href时，没有“一些文本”，而是一个图像或其他东西。我不知道如何摆脱它们。你是说这个吗？@AvinashRaj谢谢，但代码在我的计算机上是错误的。我的计算机不工作，不如让我知道如何按照我的要求删除所有内容？使用此正则表达式，并用空字符串替换所有匹配项。
re.IGNORECASE, re.I  
re.MULTILINE, re.M

>>> import re
>>> s = """< a href="http://xxxx"><div> < image> < /image> < div> < /a>
... < a href="http://xxxx">Some text< /a>"""
>>> re.findall(r"< a\s*href=['\"]http.*?['\"][^<>]*>([^<>]*)<\s*/a>", s)
['Some text']

>>> s = '< a href="http://xxxx">Some text< /a>'
>>> re.sub(r'<[^<>]*>', r'', s)
'Some text'