删除Python中的HTML块
我想知道Python中是否有从HTML文档中提取元素的库或方法。例如: 我有以下文件:删除Python中的HTML块,python,html,parsing,Python,Html,Parsing,我想知道Python中是否有从HTML文档中提取元素的库或方法。例如: 我有以下文件: ... ... 尝试使用HTML解析器,例如选择DOM元素。然后,您可以使用regex或类似工具删除它。我个人觉得您不需要库或其他东西 您只需编写一个python脚本来读取html文件和一个正则表达式来匹配所需的html标记,然后对其执行任何操作(在您的示例中删除) 不过,也有一个相同的库 请参阅官方文档-> 另请参见此->此操作不需要库。只需使用内置的字符串方法 def removeOneTag(tex
...
...
尝试使用HTML解析器,例如选择
DOM元素。然后,您可以使用regex或类似工具删除它。我个人觉得您不需要库或其他东西
您只需编写一个python脚本来读取html文件和一个正则表达式来匹配所需的html标记,然后对其执行任何操作(在您的示例中删除)
不过,也有一个相同的库
请参阅官方文档->
另请参见此->此操作不需要库。只需使用内置的字符串方法
def removeOneTag(text, tag):
return text[:text.find("<"+tag+">")] + text[text.find("</"+tag+">") + len(tag)+3:]
您想只删除
标签还是同时删除标签和标签中的内容?我想删除标签和标签之间的内容。但是只有内容也可以:)您可以尝试将html文件读取为xml并删除div
节点。建议使用ElementTreeb,但对我来说最重要的是删除@SimonHänischremoving节点包括删除nodecol的内容。我真的不需要一个图书馆。谢谢
x = """<html>
<head>
...
</head>
<body>
<div>
...
</div>
</body>
</html>"""
print(removeOneTag(x, "div"))
while(tag in x):
x = removeOneTag(x, tag)