Python 从本地保存的HTML文件中提取表

Python 从本地保存的HTML文件中提取表,python,html,beautifulsoup,html-table,extraction,Python,Html,Beautifulsoup,Html Table,Extraction,我在本地文件夹(“目标文件夹”)中存储了一系列HTML文件。这些HTML文件都包含许多表。我想做的是通过关键字找到我感兴趣的表,抓取这些表的全部内容,将它们粘贴到文本文件中,并将该文件保存到同一个本地文件夹(“目标文件夹”) 这就是我现在所拥有的: from bs4 import BeautifulSoup filename = open('filename.txt', 'r') soup = BeautifulSoup(filename,"lxml") data = [] for key

我在本地文件夹(“目标文件夹”)中存储了一系列HTML文件。这些HTML文件都包含许多表。我想做的是通过关键字找到我感兴趣的表,抓取这些表的全部内容,将它们粘贴到文本文件中,并将该文件保存到同一个本地文件夹(“目标文件夹”)

这就是我现在所拥有的:

from bs4 import BeautifulSoup


filename = open('filename.txt', 'r')
soup = BeautifulSoup(filename,"lxml")
data = []

for keyword in keywords.split(','):
    u=1
    txtfile = destinationFolder + ticker +'_'+ companyname[:10]+ '_'+item[1]+'_'+item[3]+'_'+keyword+u+'.txt'
    mots = soup.find_all(string=re.compile(keyword))
    for mot in mots:
        for row in mot.find("table").find_all("tr"):
            data = cell.get_text(strip=True) for cell in row.find_all("td")
            data = data.get_string()

        with open(txtfile,'wb') as t:
            t.write(data)

        txtfile.close()

    u=u+1

    except:
       pass

filename.close()

不确定背景中发生了什么,但我没有得到我的txt文件,就像我应该得到的那样。这个过程没有失败。它一直运行到最后,但完成后,在我的本地文件夹中找不到txt文件。我肯定我在找正确的文件夹。在我的代码中,其他地方也使用了相同的路径,效果很好。

第10行不是有效的Python代码(第行中单元格的
行)。这应该是一个列表理解吗?我从这个堆栈溢出线程中得到了它。我不确定如何调整它以满足我的需要,即复制并粘贴到一个txt文件中,然后将其保存到本地。正如你所说,这个过程没有失败,我想你的意思是上面的代码在某种程度上可以在你的系统上工作。