Python 如何从元素中获取href title并删除所有字符串?
我需要从一个网页的链接标题。链接可能看起来像Python 如何从元素中获取href title并删除所有字符串?,python,regex,Python,Regex,我需要从一个网页的链接标题。链接可能看起来像 < a href="http://xxxx">Some text< /a> 成功处理第一种类型链接而不是第二种类型链接的代码。任何人都可以帮我删除所有?使用此模式 和旗帜 re.IGNORECASE, re.I re.MULTILINE, re.M 请参阅此当然可以帮助您您需要正确地转义引号 >>> import re >>> s = """< a href="http://
< a href="http://xxxx">Some text< /a>
成功处理第一种类型链接而不是第二种类型链接的代码。任何人都可以帮我删除所有
?使用此模式
和旗帜
re.IGNORECASE, re.I
re.MULTILINE, re.M
请参阅此当然可以帮助您您需要正确地转义引号
>>> import re
>>> s = """< a href="http://xxxx"><div> < image> < /image> < div> < /a>
... < a href="http://xxxx">Some text< /a>"""
>>> re.findall(r"< a\s*href=['\"]http.*?['\"][^<>]*>([^<>]*)<\s*/a>", s)
['Some text']
>>重新导入
>>>s=“”
…某些文本”
>>>re.findall(r“([^]*)”,s)
[“一些文本”]
或
好像你要删除所有的标签
>>> s = '< a href="http://xxxx">Some text< /a>'
>>> re.sub(r'<[^<>]*>', r'', s)
'Some text'
>>s='
您的预期输出是什么?你想删除或检索吗?逻辑如何,如果在
之后找到,然后忽略,但是code如果在/code>
之后找到其他内容,则获取字符,直到遇到字符@AvinashRaj,正如我提到的“我想要得到所有的some文本”,这是url的标题。但有时当我找到a href时,没有“一些文本”,而是一个图像或其他东西。我不知道如何摆脱它们。你是说这个吗?@AvinashRaj谢谢,但代码在我的计算机上是错误的。我的计算机不工作,不如让我知道如何按照我的要求删除所有内容?使用此正则表达式
,并用空字符串替换所有匹配项。
re.IGNORECASE, re.I
re.MULTILINE, re.M
>>> import re
>>> s = """< a href="http://xxxx"><div> < image> < /image> < div> < /a>
... < a href="http://xxxx">Some text< /a>"""
>>> re.findall(r"< a\s*href=['\"]http.*?['\"][^<>]*>([^<>]*)<\s*/a>", s)
['Some text']
>>> s = '< a href="http://xxxx">Some text< /a>'
>>> re.sub(r'<[^<>]*>', r'', s)
'Some text'