Python 需要从html表中提取数据_Python_Beautifulsoup

Python 需要从html表中提取数据

python

Python 需要从html表中提取数据,python,beautifulsoup,Python,Beautifulsoup,我是个新手，我正在尝试从html表格中提取数据并将其保存为csv文件。我该怎么做这就是我到目前为止所做的： from bs4 import BeautifulSoup import os os.chdir('/Users/adityavemuganti/Downloads/Accounts_Monthly_Data-June2018') soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser") F

我是个新手，我正在尝试从html表格中提取数据并将其保存为csv文件。我该怎么做

这就是我到目前为止所做的：

from bs4 import BeautifulSoup
import os
os.chdir('/Users/adityavemuganti/Downloads/Accounts_Monthly_Data-June2018')
soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser")
Format=soup.prettify()
table=soup.find("table",attrs={"class":"details"})

以下是我试图从中提取的html文件：

（这是一个zip文件）。我已经解压缩了zipfile，并将内容读入上面提到的“汤”。现在，我正在尝试将标签中的数据读入csv/xlsx格式。

熊猫是一种方法。如果您愿意，也可以输出到xlsx

熊猫是这里的去处。如果您愿意，也可以输出到xlsx

如果它是zip文件，那么你必须下载它，解压缩它，然后从文件中获取数据。我没有发布html文件，因为它上面有我的计算机的文件路径。最好编辑你的问题，并创建一个小的、可复制的问题示例。期望人们下载42MB的zip文件是不现实的。安德烈，你说得对，我当时想不出更好的办法来发布这个问题。但多亏了迈克尔的建议，我才能够用熊猫来解析它。干杯如果它是zip文件，那么你必须下载它，解压缩它，然后从文件中获取数据。我没有发布html文件，因为它上面有我的计算机的文件路径。最好编辑你的问题，并创建一个小的、可复制的问题示例。期望人们下载42MB的zip文件是不现实的。安德烈，你说得对，我当时想不出更好的办法来发布这个问题。但多亏了迈克尔的建议，我才能够用熊猫来解析它。干杯嗨，迈克尔，谢谢你的回复！。我能够从文件中读取我想要的html表，并使用pandas对它们进行操作。很高兴这很有帮助。您介意勾选方框，表明这是您问题的最佳答案吗？这样，当其他人搜索类似问题时，他们将看到哪些问题的答案可能适用。嗨，Michael，谢谢你的回答！。我能够从文件中读取我想要的html表，并使用pandas对它们进行操作。很高兴这很有帮助。您介意勾选方框，表明这是您问题的最佳答案吗？这样，当其他人搜索类似问题时，他们将看到哪些问题的答案可能适用。

import pandas as pd

dataframes = pd.read_html('yoururlhere')
# Assuming there is only one table in the file, if not then you may need to do a little more digging
df = dataframes[0]

df.to_csv('filename.csv')