Python 从html中提取特定标记后的所有文本?

Python 从html中提取特定标记后的所有文本?,python,html,beautifulsoup,Python,Html,Beautifulsoup,我想在第二次出现特定标记后提取HTML文件的文本 我已经试过regex和bs4,但我不知道出了什么问题。Regex总是只给我命中本身,而不给html文件的其余部分,bs4就是不起作用,因为我不知道如何为它指定文件的结尾 简化: abc 这里有一个使用BeautifulSoup的建议: mark = soup.find('veryspecific').find_next('veryspecific') all_other_tags = mark.find_all_next(name=True)

我想在第二次出现特定标记后提取HTML文件的文本

我已经试过regex和bs4,但我不知道出了什么问题。Regex总是只给我命中本身,而不给html文件的其余部分,bs4就是不起作用,因为我不知道如何为它指定文件的结尾

简化:


abc

这里有一个使用
BeautifulSoup
的建议:

mark = soup.find('veryspecific').find_next('veryspecific')
all_other_tags = mark.find_all_next(name=True)

print(''.join(i.text for i in all_other_tags))
它给了我这个输出:

       something

    something

你可能不想在正则表达式中这样做。我建议您考虑一个包含XPath的解决方案。它会让你相当容易地获得信息。这是一个可能有用的包:那么你想要
和之后的东西?