Python 从本地保存的HTML文件中提取表_Python_Html_Beautifulsoup_Html Table_Extraction

Python 从本地保存的HTML文件中提取表

python html

Python 从本地保存的HTML文件中提取表,python,html,beautifulsoup,html-table,extraction,Python,Html,Beautifulsoup,Html Table,Extraction,我在本地文件夹（“目标文件夹”）中存储了一系列HTML文件。这些HTML文件都包含许多表。我想做的是通过关键字找到我感兴趣的表，抓取这些表的全部内容，将它们粘贴到文本文件中，并将该文件保存到同一个本地文件夹（“目标文件夹”）这就是我现在所拥有的： from bs4 import BeautifulSoup filename = open('filename.txt', 'r') soup = BeautifulSoup(filename,"lxml") data = [] for key

我在本地文件夹（“目标文件夹”）中存储了一系列HTML文件。这些HTML文件都包含许多表。我想做的是通过关键字找到我感兴趣的表，抓取这些表的全部内容，将它们粘贴到文本文件中，并将该文件保存到同一个本地文件夹（“目标文件夹”）

这就是我现在所拥有的：

from bs4 import BeautifulSoup


filename = open('filename.txt', 'r')
soup = BeautifulSoup(filename,"lxml")
data = []

for keyword in keywords.split(','):
    u=1
    txtfile = destinationFolder + ticker +'_'+ companyname[:10]+ '_'+item[1]+'_'+item[3]+'_'+keyword+u+'.txt'
    mots = soup.find_all(string=re.compile(keyword))
    for mot in mots:
        for row in mot.find("table").find_all("tr"):
            data = cell.get_text(strip=True) for cell in row.find_all("td")
            data = data.get_string()

        with open(txtfile,'wb') as t:
            t.write(data)

        txtfile.close()

    u=u+1

    except:
       pass

filename.close()

不确定背景中发生了什么，但我没有得到我的txt文件，就像我应该得到的那样。这个过程没有失败。它一直运行到最后，但完成后，在我的本地文件夹中找不到txt文件。我肯定我在找正确的文件夹。在我的代码中，其他地方也使用了相同的路径，效果很好。

第10行不是有效的Python代码（第行中单元格的

行）。这应该是一个列表理解吗？我从这个堆栈溢出线程中得到了它。我不确定如何调整它以满足我的需要，即复制并粘贴到一个txt文件中，然后将其保存到本地。正如你所说，这个过程没有失败，我想你的意思是上面的代码在某种程度上可以在你的系统上工作。