如何删除'；amp'；以及使用Python将html转换为文本时出现的一些错误字符？_Python_Html_Text_Replace_File Conversion

如何删除'；amp'；以及使用Python将html转换为文本时出现的一些错误字符？

python html text replace

如何删除'；amp'；以及使用Python将html转换为文本时出现的一些错误字符？,python,html,text,replace,file-conversion,Python,Html,Text,Replace,File Conversion,我正在尝试将html转换为文本。经检查，有“amp；”和其他非文本项正在转换。我使用replace（）尝试手动删除这些非文本项，但它似乎不起作用这是我的密码： import csv from datetime import datetime, timedelta import glob import pandas as pd from bs4 import BeautifulSoup import lxml.html import lxml.html.clean filenames = gl

我正在尝试将html转换为文本。经检查，有“amp；”和其他非文本项正在转换。我使用replace（）尝试手动删除这些非文本项，但它似乎不起作用

这是我的密码：

import csv
from datetime import datetime, timedelta
import glob
import pandas as pd
from bs4 import BeautifulSoup
import lxml.html
import lxml.html.clean

filenames = glob.glob('C:\daily\d??????e.htm')
print(" ")
print(" Combine Daily...")
print(" ")

with open('combine.txt', 'w', newline='', encoding='utf-8-sig') as g:
    writer = csv.writer(g)

for i in filenames:
    mylines = []  # Declare an empty list named mylines.
    print(i)

    with open(i,'rt') as myfile:    # Open txt for reading text data.
        myfile = myfile.string.replace("amp;", "")
        myfile = myfile.string.replace("</font></pre><pre><font size='1'>", "")

        with open('combine.txt', 'a', newline='', encoding='utf-8-sig') as g:
            writer = csv.writer(g)
            writer.writerow([myfile])

导入csv
从datetime导入datetime，timedelta
导入glob
作为pd进口熊猫
从bs4导入BeautifulSoup
导入lxml.html
导入lxml.html.clean
filenames=glob.glob（'C:\daily\d？？？？？e.htm'）
打印（“”）
打印（“每日合并…”）
打印（“”）
将open（'combine.txt'，'w'，newline=''，encoding='utf-8-sig'）作为g：
writer=csv.writer（g）
对于文件名中的i：
mylines=[]#声明一个名为mylines的空列表。
印刷品（一）
用open（i，'rt'）作为myfile:#open txt读取文本数据。
myfile=myfile.string.replace（“amp；”，“”）
myfile=myfile.string.replace（“，”）
将open（'combine.txt'，'a'，newline=''，encoding='utf-8-sig'）作为g：
writer=csv.writer（g）
writer.writerow（[myfile]）

您应该包含有问题的标记的最小样本，并重新编写您的代码，以便对标记样本而不是文件进行操作。我看到您正在导入BeautifulSoup，但没有使用它-为什么会这样？可能是重复的