Python 从文本文件中删除BeautifulSoup标记_Python_Beautifulsoup_Text Files

Python 从文本文件中删除BeautifulSoup标记

python

Python 从文本文件中删除BeautifulSoup标记,python,beautifulsoup,text-files,Python,Beautifulsoup,Text Files,我已经安装了bs4。如何从文本文件中删除HTML标记？简言之，我有一个脚本，可以将ESRI元数据项从元数据的HTML页面写入文本文件，对于其中一些项，HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码？看起来很邋遢此附件的说明项具有HTML:为此使用，无需bs4： from w3lib.html import remove_tags text = "your text" new_text = remove_tags(text) 为此，请使用，无需bs4：

我已经安装了bs4。如何从文本文件中删除HTML标记？简言之，我有一个脚本，可以将ESRI元数据项从元数据的HTML页面写入文本文件，对于其中一些项，HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码？看起来很邋遢

此附件的说明项具有HTML:

为此使用，无需

bs4

：

from w3lib.html import remove_tags

text = "your text"
new_text = remove_tags(text)

为此，请使用，无需

bs4

：

from w3lib.html import remove_tags

text = "your text"
new_text = remove_tags(text)

@eLRuLL谢谢，这对移除标签非常有效。然而，我将要使用这个脚本的一些元数据描述非常冗长，将文本作为变量输入似乎不是一个好主意。出于这个原因，我尝试了以下方法：

import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
    abstract = metadata.abstract
    if abstract:
        w3lib.html.remove_tags(abstract)

脚本运行，但HTML仍然存在。

@eLRuLL谢谢，这对于删除标记非常有用。然而，我将要使用这个脚本的一些元数据描述非常冗长，将文本作为变量输入似乎不是一个好主意。出于这个原因，我尝试了以下方法：

import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
    abstract = metadata.abstract
    if abstract:
        w3lib.html.remove_tags(abstract)

脚本运行，但HTML仍然存在。

预期输出是什么，到目前为止您尝试了什么？尝试

soup.text

是否要提取没有HTML标记的数据？@johnII预期输出是一个文本文件，文本中没有注入HTML代码。@t.m.adam谢谢，是的，我已经记下了。预期输出是什么，到目前为止，您尝试了什么？尝试

soup.text

是否要提取没有html标记的数据？@johnII预期输出是一个文本文件，文本中没有注入html代码。@t.m.adam谢谢，是的，我已经记下了。