删除Python中的HTML块

删除Python中的HTML块,python,html,parsing,Python,Html,Parsing,我想知道Python中是否有从HTML文档中提取元素的库或方法。例如: 我有以下文件: ... ... 尝试使用HTML解析器,例如选择DOM元素。然后,您可以使用regex或类似工具删除它。我个人觉得您不需要库或其他东西 您只需编写一个python脚本来读取html文件和一个正则表达式来匹配所需的html标记,然后对其执行任何操作(在您的示例中删除) 不过,也有一个相同的库 请参阅官方文档-> 另请参见此->此操作不需要库。只需使用内置的字符串方法 def removeOneTag(tex

我想知道Python中是否有从HTML文档中提取元素的库或方法。例如:

我有以下文件:


...
...

尝试使用HTML解析器,例如选择
DOM元素。然后,您可以使用regex或类似工具删除它。

我个人觉得您不需要库或其他东西

您只需编写一个python脚本来读取html文件和一个正则表达式来匹配所需的html标记,然后对其执行任何操作(在您的示例中删除)

不过,也有一个相同的库

请参阅官方文档->


另请参见此->

此操作不需要库。只需使用内置的字符串方法

def removeOneTag(text, tag):
    return text[:text.find("<"+tag+">")] + text[text.find("</"+tag+">") + len(tag)+3:]

您想只删除
标签还是同时删除标签和标签中的内容?我想删除标签和标签之间的内容。但是只有内容也可以:)您可以尝试将html文件读取为xml并删除
div
节点。建议使用ElementTreeb,但对我来说最重要的是删除@SimonHänischremoving节点包括删除nodecol的内容。我真的不需要一个图书馆。谢谢
    x = """<html>
    <head>
      ...
    </head>
    <body>
       <div>
         ...
       </div>
    </body>
</html>"""
print(removeOneTag(x, "div"))
while(tag in x):
    x = removeOneTag(x, tag)