Python 如何从元素中获取href title并删除所有字符串?

Python 如何从元素中获取href title并删除所有字符串?,python,regex,Python,Regex,我需要从一个网页的链接标题。链接可能看起来像 < a href="http://xxxx">Some text< /a> 成功处理第一种类型链接而不是第二种类型链接的代码。任何人都可以帮我删除所有?使用此模式 和旗帜 re.IGNORECASE, re.I re.MULTILINE, re.M 请参阅此当然可以帮助您您需要正确地转义引号 >>> import re >>> s = """< a href="http://

我需要从一个网页的链接标题。链接可能看起来像

< a href="http://xxxx">Some text< /a>
成功处理第一种类型链接而不是第二种类型链接的代码。任何人都可以帮我删除所有

使用此模式 和旗帜

re.IGNORECASE, re.I  
re.MULTILINE, re.M


请参阅此当然可以帮助您

您需要正确地转义引号

>>> import re
>>> s = """< a href="http://xxxx"><div> < image> < /image> < div> < /a>
... < a href="http://xxxx">Some text< /a>"""
>>> re.findall(r"< a\s*href=['\"]http.*?['\"][^<>]*>([^<>]*)<\s*/a>", s)
['Some text']
>>重新导入
>>>s=“”

好像你要删除所有的标签

>>> s = '< a href="http://xxxx">Some text< /a>'
>>> re.sub(r'<[^<>]*>', r'', s)
'Some text'
>>s='
您的预期输出是什么?你想删除或检索吗?逻辑如何,
如果在
之后找到
,然后忽略,但是code如果在/code>
之后找到其他内容,则获取字符,直到遇到字符
@AvinashRaj,正如我提到的“我想要得到所有的some文本”,这是url的标题。但有时当我找到a href时,没有“一些文本”,而是一个图像或其他东西。我不知道如何摆脱它们。你是说这个吗?@AvinashRaj谢谢,但代码在我的计算机上是错误的。我的计算机不工作,不如让我知道如何按照我的要求删除所有内容?使用此正则表达式
,并用空字符串替换所有匹配项。
re.IGNORECASE, re.I  
re.MULTILINE, re.M
>>> import re
>>> s = """< a href="http://xxxx"><div> < image> < /image> < div> < /a>
... < a href="http://xxxx">Some text< /a>"""
>>> re.findall(r"< a\s*href=['\"]http.*?['\"][^<>]*>([^<>]*)<\s*/a>", s)
['Some text']
>>> s = '< a href="http://xxxx">Some text< /a>'
>>> re.sub(r'<[^<>]*>', r'', s)
'Some text'