如何删除';amp';以及使用Python将html转换为文本时出现的一些错误字符?

如何删除';amp';以及使用Python将html转换为文本时出现的一些错误字符?,python,html,text,replace,file-conversion,Python,Html,Text,Replace,File Conversion,我正在尝试将html转换为文本。经检查,有“amp;”和其他非文本项正在转换。我使用replace()尝试手动删除这些非文本项,但它似乎不起作用 这是我的密码: import csv from datetime import datetime, timedelta import glob import pandas as pd from bs4 import BeautifulSoup import lxml.html import lxml.html.clean filenames = gl

我正在尝试将html转换为文本。经检查,有“amp;”和其他非文本项正在转换。我使用replace()尝试手动删除这些非文本项,但它似乎不起作用

这是我的密码:

import csv
from datetime import datetime, timedelta
import glob
import pandas as pd
from bs4 import BeautifulSoup
import lxml.html
import lxml.html.clean

filenames = glob.glob('C:\daily\d??????e.htm')
print(" ")
print(" Combine Daily...")
print(" ")

with open('combine.txt', 'w', newline='', encoding='utf-8-sig') as g:
    writer = csv.writer(g)

for i in filenames:
    mylines = []  # Declare an empty list named mylines.
    print(i)

    with open(i,'rt') as myfile:    # Open txt for reading text data.
        myfile = myfile.string.replace("amp;", "")
        myfile = myfile.string.replace("</font></pre><pre><font size='1'>", "")

        with open('combine.txt', 'a', newline='', encoding='utf-8-sig') as g:
            writer = csv.writer(g)
            writer.writerow([myfile])
导入csv
从datetime导入datetime,timedelta
导入glob
作为pd进口熊猫
从bs4导入BeautifulSoup
导入lxml.html
导入lxml.html.clean
filenames=glob.glob('C:\daily\d?????e.htm')
打印(“”)
打印(“每日合并…”)
打印(“”)
将open('combine.txt','w',newline='',encoding='utf-8-sig')作为g:
writer=csv.writer(g)
对于文件名中的i:
mylines=[]#声明一个名为mylines的空列表。
印刷品(一)
用open(i,'rt')作为myfile:#open txt读取文本数据。
myfile=myfile.string.replace(“amp;”,“”)
myfile=myfile.string.replace(“,”)
将open('combine.txt','a',newline='',encoding='utf-8-sig')作为g:
writer=csv.writer(g)
writer.writerow([myfile])

您应该包含有问题的标记的最小样本,并重新编写您的代码,以便对标记样本而不是文件进行操作。我看到您正在导入BeautifulSoup,但没有使用它-为什么会这样?可能是重复的