Python 从html中提取特定标记后的所有文本?
我想在第二次出现特定标记后提取HTML文件的文本 我已经试过regex和bs4,但我不知道出了什么问题。Regex总是只给我命中本身,而不给html文件的其余部分,bs4就是不起作用,因为我不知道如何为它指定文件的结尾 简化:Python 从html中提取特定标记后的所有文本?,python,html,beautifulsoup,Python,Html,Beautifulsoup,我想在第二次出现特定标记后提取HTML文件的文本 我已经试过regex和bs4,但我不知道出了什么问题。Regex总是只给我命中本身,而不给html文件的其余部分,bs4就是不起作用,因为我不知道如何为它指定文件的结尾 简化: abc 这里有一个使用BeautifulSoup的建议: mark = soup.find('veryspecific').find_next('veryspecific') all_other_tags = mark.find_all_next(name=True)
abc
这里有一个使用BeautifulSoup
的建议:
mark = soup.find('veryspecific').find_next('veryspecific')
all_other_tags = mark.find_all_next(name=True)
print(''.join(i.text for i in all_other_tags))
它给了我这个输出:
something
something
你可能不想在正则表达式中这样做。我建议您考虑一个包含XPath的解决方案。它会让你相当容易地获得信息。这是一个可能有用的包:那么你想要
和之后的东西?