使用python代码从网站中删除html标记

使用python代码从网站中删除html标记,python,html,Python,Html,我想知道如何使用python从给定网站删除HTML标记。我希望能够输出html页面中的所有文本,排除所有html代码试试看。然后,您只需执行以下操作即可获得所有精简文本: soup.get_text() 也许,如果你能准确地解释你想做什么,我们可以建议一种更符合逻辑的方法。你所描述的听起来像是你试图提取一条特定的信息,而不仅仅是“输出所有的文本”。剥离的文本=re.sub(r'','',html文本)我想从网站内容中剥离所有的html代码,只留下文本,例如content=“Hello worl

我想知道如何使用python从给定网站删除HTML标记。我希望能够输出html页面中的所有文本,排除所有html代码

试试看。然后,您只需执行以下操作即可获得所有精简文本:

soup.get_text()

也许,如果你能准确地解释你想做什么,我们可以建议一种更符合逻辑的方法。你所描述的听起来像是你试图提取一条特定的信息,而不仅仅是“输出所有的文本”。剥离的文本=re.sub(r'','',html文本)我想从网站内容中剥离所有的html代码,只留下文本,例如content=“Hello world我希望能够删除所有HTML代码,然后输出文本。在本例中为“Hello world”。以下内容可能会有所帮助:[此处][1]并且不要使用RE。。。坏主意[1]: