Python 从html中提取特定标记后的所有文本？_Python_Html_Beautifulsoup

Python 从html中提取特定标记后的所有文本？

python html

Python 从html中提取特定标记后的所有文本？,python,html,beautifulsoup,Python,Html,Beautifulsoup,我想在第二次出现特定标记后提取HTML文件的文本我已经试过regex和bs4，但我不知道出了什么问题。Regex总是只给我命中本身，而不给html文件的其余部分，bs4就是不起作用，因为我不知道如何为它指定文件的结尾简化： abc 这里有一个使用BeautifulSoup的建议： mark = soup.find('veryspecific').find_next('veryspecific') all_other_tags = mark.find_all_next(name=True)

我想在第二次出现特定标记后提取HTML文件的文本

我已经试过regex和bs4，但我不知道出了什么问题。Regex总是只给我命中本身，而不给html文件的其余部分，bs4就是不起作用，因为我不知道如何为它指定文件的结尾

简化：


abc
这里有一个使用BeautifulSoup
的建议：
mark = soup.find('veryspecific').find_next('veryspecific')
all_other_tags = mark.find_all_next(name=True)

print(''.join(i.text for i in all_other_tags))

它给了我这个输出：
       something

    something

你可能不想在正则表达式中这样做。我建议您考虑一个包含XPath的解决方案。它会让你相当容易地获得信息。这是一个可能有用的包：那么你想要
和之后的东西？