Python 需要从html表中提取数据

Python 需要从html表中提取数据,python,beautifulsoup,Python,Beautifulsoup,我是个新手,我正在尝试从html表格中提取数据并将其保存为csv文件。我该怎么做 这就是我到目前为止所做的: from bs4 import BeautifulSoup import os os.chdir('/Users/adityavemuganti/Downloads/Accounts_Monthly_Data-June2018') soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser") F

我是个新手,我正在尝试从html表格中提取数据并将其保存为csv文件。我该怎么做

这就是我到目前为止所做的:

from bs4 import BeautifulSoup
import os
os.chdir('/Users/adityavemuganti/Downloads/Accounts_Monthly_Data-June2018')
soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser")
Format=soup.prettify()
table=soup.find("table",attrs={"class":"details"})
以下是我试图从中提取的html文件:


(这是一个zip文件)。我已经解压缩了zipfile,并将内容读入上面提到的“汤”。现在,我正在尝试将标签中的数据读入csv/xlsx格式。

熊猫是一种方法。如果您愿意,也可以输出到xlsx


熊猫是这里的去处。如果您愿意,也可以输出到xlsx


如果它是zip文件,那么你必须下载它,解压缩它,然后从文件中获取数据。我没有发布html文件,因为它上面有我的计算机的文件路径。最好编辑你的问题,并创建一个小的、可复制的问题示例。期望人们下载42MB的zip文件是不现实的。安德烈,你说得对,我当时想不出更好的办法来发布这个问题。但多亏了迈克尔的建议,我才能够用熊猫来解析它。干杯如果它是zip文件,那么你必须下载它,解压缩它,然后从文件中获取数据。我没有发布html文件,因为它上面有我的计算机的文件路径。最好编辑你的问题,并创建一个小的、可复制的问题示例。期望人们下载42MB的zip文件是不现实的。安德烈,你说得对,我当时想不出更好的办法来发布这个问题。但多亏了迈克尔的建议,我才能够用熊猫来解析它。干杯嗨,迈克尔,谢谢你的回复!。我能够从文件中读取我想要的html表,并使用pandas对它们进行操作。很高兴这很有帮助。您介意勾选方框,表明这是您问题的最佳答案吗?这样,当其他人搜索类似问题时,他们将看到哪些问题的答案可能适用。嗨,Michael,谢谢你的回答!。我能够从文件中读取我想要的html表,并使用pandas对它们进行操作。很高兴这很有帮助。您介意勾选方框,表明这是您问题的最佳答案吗?这样,当其他人搜索类似问题时,他们将看到哪些问题的答案可能适用。
import pandas as pd

dataframes = pd.read_html('yoururlhere')
# Assuming there is only one table in the file, if not then you may need to do a little more digging
df = dataframes[0]

df.to_csv('filename.csv')