Python 从文本文件中删除BeautifulSoup标记

Python 从文本文件中删除BeautifulSoup标记,python,beautifulsoup,text-files,Python,Beautifulsoup,Text Files,我已经安装了bs4。如何从文本文件中删除HTML标记?简言之,我有一个脚本,可以将ESRI元数据项从元数据的HTML页面写入文本文件,对于其中一些项,HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码?看起来很邋遢 此附件的说明项具有HTML:为此使用,无需bs4: from w3lib.html import remove_tags text = "your text" new_text = remove_tags(text) 为此,请使用,无需bs4:

我已经安装了bs4。如何从文本文件中删除HTML标记?简言之,我有一个脚本,可以将ESRI元数据项从元数据的HTML页面写入文本文件,对于其中一些项,HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码?看起来很邋遢

此附件的说明项具有HTML:

为此使用,无需
bs4

from w3lib.html import remove_tags

text = "your text"
new_text = remove_tags(text)
为此,请使用,无需
bs4

from w3lib.html import remove_tags

text = "your text"
new_text = remove_tags(text)

@eLRuLL谢谢,这对移除标签非常有效。然而,我将要使用这个脚本的一些元数据描述非常冗长,将文本作为变量输入似乎不是一个好主意。出于这个原因,我尝试了以下方法:

import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
    abstract = metadata.abstract
    if abstract:
        w3lib.html.remove_tags(abstract)

脚本运行,但HTML仍然存在。

@eLRuLL谢谢,这对于删除标记非常有用。然而,我将要使用这个脚本的一些元数据描述非常冗长,将文本作为变量输入似乎不是一个好主意。出于这个原因,我尝试了以下方法:

import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
    abstract = metadata.abstract
    if abstract:
        w3lib.html.remove_tags(abstract)

脚本运行,但HTML仍然存在。

预期输出是什么,到目前为止您尝试了什么?尝试
soup.text
是否要提取没有HTML标记的数据?@johnII预期输出是一个文本文件,文本中没有注入HTML代码。@t.m.adam谢谢,是的,我已经记下了。预期输出是什么,到目前为止,您尝试了什么?尝试
soup.text
是否要提取没有html标记的数据?@johnII预期输出是一个文本文件,文本中没有注入html代码。@t.m.adam谢谢,是的,我已经记下了。