删除Python中的HTML块_Python_Html_Parsing

删除Python中的HTML块

python html parsing

删除Python中的HTML块,python,html,parsing,Python,Html,Parsing,我想知道Python中是否有从HTML文档中提取元素的库或方法。例如：我有以下文件： ... ... 尝试使用HTML解析器，例如选择DOM元素。然后，您可以使用regex或类似工具删除它。我个人觉得您不需要库或其他东西您只需编写一个python脚本来读取html文件和一个正则表达式来匹配所需的html标记，然后对其执行任何操作（在您的示例中删除）不过，也有一个相同的库请参阅官方文档-> 另请参见此->此操作不需要库。只需使用内置的字符串方法 def removeOneTag(tex

我想知道Python中是否有从HTML文档中提取元素的库或方法。例如：

我有以下文件：


...
...

尝试使用HTML解析器，例如选择

DOM元素。然后，您可以使用regex或类似工具删除它。

我个人觉得您不需要库或其他东西

您只需编写一个python脚本来读取html文件和一个正则表达式来匹配所需的html标记，然后对其执行任何操作（在您的示例中删除）

不过，也有一个相同的库

请参阅官方文档->

另请参见此->

此操作不需要库。只需使用内置的字符串方法

def removeOneTag(text, tag):
    return text[:text.find("<"+tag+">")] + text[text.find("</"+tag+">") + len(tag)+3:]

您想只删除

标签还是同时删除标签和标签中的内容？我想删除标签和标签之间的内容。但是只有内容也可以：）您可以尝试将html文件读取为xml并删除

div

节点。建议使用ElementTreeb，但对我来说最重要的是删除@SimonHänischremoving节点包括删除nodecol的内容。我真的不需要一个图书馆。谢谢

    x = """<html>
    <head>
      ...
    </head>
    <body>
       <div>
         ...
       </div>
    </body>
</html>"""
print(removeOneTag(x, "div"))

while(tag in x):
    x = removeOneTag(x, tag)