Python 从本地保存的HTML文件中提取表
我在本地文件夹(“目标文件夹”)中存储了一系列HTML文件。这些HTML文件都包含许多表。我想做的是通过关键字找到我感兴趣的表,抓取这些表的全部内容,将它们粘贴到文本文件中,并将该文件保存到同一个本地文件夹(“目标文件夹”) 这就是我现在所拥有的:Python 从本地保存的HTML文件中提取表,python,html,beautifulsoup,html-table,extraction,Python,Html,Beautifulsoup,Html Table,Extraction,我在本地文件夹(“目标文件夹”)中存储了一系列HTML文件。这些HTML文件都包含许多表。我想做的是通过关键字找到我感兴趣的表,抓取这些表的全部内容,将它们粘贴到文本文件中,并将该文件保存到同一个本地文件夹(“目标文件夹”) 这就是我现在所拥有的: from bs4 import BeautifulSoup filename = open('filename.txt', 'r') soup = BeautifulSoup(filename,"lxml") data = [] for key
from bs4 import BeautifulSoup
filename = open('filename.txt', 'r')
soup = BeautifulSoup(filename,"lxml")
data = []
for keyword in keywords.split(','):
u=1
txtfile = destinationFolder + ticker +'_'+ companyname[:10]+ '_'+item[1]+'_'+item[3]+'_'+keyword+u+'.txt'
mots = soup.find_all(string=re.compile(keyword))
for mot in mots:
for row in mot.find("table").find_all("tr"):
data = cell.get_text(strip=True) for cell in row.find_all("td")
data = data.get_string()
with open(txtfile,'wb') as t:
t.write(data)
txtfile.close()
u=u+1
except:
pass
filename.close()
不确定背景中发生了什么,但我没有得到我的txt文件,就像我应该得到的那样。这个过程没有失败。它一直运行到最后,但完成后,在我的本地文件夹中找不到txt文件。我肯定我在找正确的文件夹。在我的代码中,其他地方也使用了相同的路径,效果很好。第10行不是有效的Python代码(第行中单元格的
行)。这应该是一个列表理解吗?我从这个堆栈溢出线程中得到了它。我不确定如何调整它以满足我的需要,即复制并粘贴到一个txt文件中,然后将其保存到本地。正如你所说,这个过程没有失败,我想你的意思是上面的代码在某种程度上可以在你的系统上工作。